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内 容 简 介 


随 着 云 计算 , 物 联 网 等 新 一 代 技 术 的 发 展 .在 移动 计算 ,社交 网 络 等 业务 的 推动 下 ,大 数据 技术 产生 并 
迅速 地 建立 起 生态 体系 ,NoSQL 成 为 了 处 理 大 数据 必须 掌握 的 热门 核心 技术 之 一 。 本 书 在 这 种 情况 下 应 
运 而 生 。 本 书 由 浅 入 深 ,系统 全 面 地 介绍 NoSQL 数据 库 的 理论 .技术 与 实践 操作 。 全 书 共 10 章 ,其 中 第 1 
章 主要 是 带领 大 家 简单 认识 NoSQL 数据 库 ; 第 2 一 9 章 分 别 讲解 文档 存储 数据 库 MongoDB, MongoDB 数 
据 库 操作 .MongoDB 副本 集 、MongoDB 4) Fr , MongoDB GridFS、 键 值 对 存储 数据 库 Redis、 列 式 存储 数据 库 
HBase、 图 形 存储 数据 库 Neo4j。 第 10 章 利用 NoSQL, Hadoop, Spark 等 技术 开发 一 个 综合 实战 案例 -一 
二 手 房 交 易 数据 分 析 系 统 , 使 得 读者 能 够 掌握 大 数据 技术 和 NoSQL 技术 ,进而 在 未 来 能 很 好 地 适应 企业 
开发 的 技术 需要 。 

本 书 附 有 配套 视频 、 源 代码 ,习题 教学 设计 、 教 学 PPT 教学 大 纲 等 资源 。 同 时 ,为 了 帮助 初学 者 更 好 
地 学 习 本 书 中 的 内 容 , 作 者 还 提供 了 在 线 答疑 ,欢迎 读者 关注 。 

本 书 可 作为 高 等 院 校本 、 专 科 计算 机 、 大 数据 及 信息 管理 等 相关 专业 的 大 数据 课程 教材 ,也 可 供 相关 
技术 人 员 参 考 ,是 一 本 适合 广大 计算 机 编程 爱好 者 的 优秀 读物 。 


本 书 封面 贴 有 清华 大 学 出 版 社 防伪 标签 ,无 标签 者 不 得 销售 。 
版 权 所 有 ,侵权 必 究 。 举 报 : 010-62782989 ,beiqinquan@tup tsinghua.edu.cn。 
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江苏 传 智 播客 教育 科技 股份 有 限 公司 (简称 “ 传 智 播客 ”) 是 一 家 致力 于 培养 高 素质 软件 
开发 人 才 的 科技 公司 。 经 过 多 年 探索 , 传 智 播客 的 战略 逐步 完善 ,从 IT 教育 培训 发 展 到 高 
等 教育 ,从 根本 上 解决 以 人 为 单位 的 系统 教育 培训 问题 ,实现 新 的 系统 教育 形态 ,构建 出 前 
后 衔接 .相互 呼应 的 分 层次 教育 培训 模式 。 


一 “黑马 程序 员 ” 一 一 高 端 IT 教育 品牌 


“黑马 程序 员 ” 的 学 员 多 为 大 学 毕业 后 , 想 从 事 IT 行业 ,但 各 方面 条 件 还 不 成 熟 的 年 轻 
人 。“ 黑 马 程序 员 ” 的 学 员 筛 选 制度 非常 严格 ,包括 了 严格 的 技术 测试 .自学 能 力 测试 ,以 及 
性 格 测试 .压力 测试 .品德 测试 等 。 百 里 挑 一 的 残酷 筛选 制度 确保 学 员 质 量 , 并 降低 企业 的 
用 人 风险 。 

自 “ 黑 马 程序 员 ? 成 立 以 来 ,教学 研发 团队 一 直 致 力 于 打造 精品 课程 资源 ,不 断 在 产 .学 、 
研 3 个 层面 创新 自己 的 执教 理念 与 教学 方针 ,并 集中 “黑马 程序 员 ” 的 优势 力量 ,有 针对 性 地 
出 版 了 计算 机 系列 教材 90 多 种 ,制作 教学 视频 数 十 套 , 发 表 各 类 技术 文章 数 百 篇 。 

“黑马 程序 员 " 不 仅 斥 资 研 发 IT 系列 教材 ,还 为 高 校 师 生 提 供 以 下 配套 学 习 资 源 与 
服务 。 


1. 为 大 学 生 提供 的 配套 服务 


CO 请 同学 们 登录 http://yx.ityxb.com, 进 入 “高校 学 习 平台 ”, 免 费 获 取 海量 学 习 资 
源 。 平 台 可 以 帮助 高 校 学 生 解决 各 类 学 习 问 题 。 

(2) 针对 高 校 学 生 在 学 习 过 程 中 存在 的 压力 大 等 问题 ,我 们 
还 面向 大 学 生 量 身 打造 了 IT 技术 女神 一 “ 播 妞 学 姐 ”, 可 提供 
教材 配套 源码 ,习题 答案 及 更 多 学 习 资 源 。 同 学 们 快 来 关注 “ 播 ojs 
妞 学 姐 ” 的 微 信 公 众 号 boniu1024。 “ 播 妞 学 姐 " 微 信 公 众 号 


2. 为 教师 提供 的 配套 服务 


针对 高 校 教学 ,黑马 程序 员 ? 为 IT 系列 教材 精心 设计 了 “教案 十 授课 资源 十 考试 系 
统 十 题库 十 教学 辅助 案例 ”的 系列 教学 资源 。 高 校 老 师 请 登录 http://yx.ityxb.com, 进 入 
“高 校 教 辅 平台 ”, 也 可 关注 “ 码 大 牛 ” 老 师 微 信 /QQ: 2011168841, 获 取 配 套 资源 ,还 可 以 扫 
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描 下 方 二 维 码 ,关注 专 为 YT 教师 打造 的 师资 服务 平台 一 一 “教学 好 助手 ”, 获 取 最 新 的 教学 
辅助 资源 。 


Ls 
"Fn rs ad S ped 
“教学 好 助手 ” 微 信 公众 号 


二 、“ 传 智 专修 学 院 ” 一 一 高 等 教育 机 构 


传 智 专修 学 院 是 一 所 由 江苏 省 宿迁 市 教育 局 批准 、 江 苏 传 智 播客 教育 科技 股份 有 限 公 
司 投资 创办 的 四 年 制 应 用 型 院 校 。 学 校 致力 于 为 互联 网 、 智 能 制造 等 新 兴 行 业 培 养 高 精 尖 
科技 人 才 ,聚焦 人 工 智 能 、 大 数据 、 机 器 人 、 物 联网 等 前 沿 技术 ,开设 软件 工程 专业 ,招收 的 学 
生 入 校 后 将 接受 系统 化 培养 ,毕业 时 学 生 的 专业 水 平和 技术 能 力 可 满足 大 型 互联 网 企业 的 
用 人 要 求 。 

传 智 专修 学 院 借 鉴 卡 内 基 ' 梅 隆 大 学 .斯坦福 大 学 等 世界 著名 大 学 的 办 学 模式 ,采用 
“申请 和 学 ,自主 选拔 ”的 招生 方式 ,通过 深入 调研 企业 需求 ,以 校 企 合作 .专业 共 建 等 方式 构 
建 专业 的 课程 体系 。 传 智 专修 学 院 拥 有 项 级 的 教研 团队 、 完 善 的 班级 管理 体系 `. 折 人 精神 的 
现代 学 徒 制 和 敢 为 人 先 的 质保 服务 。 

传 智 专修 学 院 突出 的 办 学 特色 如 下 。 

COD 立足 “高 精 尖 ”人 才 培 养 。 传 智 专 修学 院 以 国家 重大 战略 和 国际 科学 技术 前 沿 为 导 
向 ,致力 于 为 社会 培养 具有 创新 精神 和 实践 能 力 的 应 用 型 人 才 。 

(2) 项 目 式 教学 ,培养 学 生 自 主 学 习 能 力 。 传 智 专 修学 院 打破 传统 高 校 理 论 式 教学 模 
式 , 将 项 目 实战 式 教学 模式 融入 课堂 ,通过 分 组 实战 ,模拟 企业 项 目 开 发 过 程 ,让 学 生 拥有 真 
实 的 工作 能 力 ,并 持续 培养 学 生 的 自主 学 习 能 力 。 

(3) 创新 模式 ,就 业 无 忧 。 学 校 为 学 生 提 供 “ 一 年 工作 式 学 习 ”, 学 生 能 够 进入 企业 边 工 
作 边 学 习 。 与 此 同时 ,我 们 还 提供 专业 老师 指导 学 生 参 加 企业 面试 ,并 且 开 设 了 技术 服务 窗 
口 给 学 生 解 答 工作 中 遇 到 的 各 种 问题 ,帮助 学 生 顺 利 就 业 。 

如 果 想 了 解 传 智 专修 学 院 更 多 的 精彩 内 容 , 请 关注 微 信 公 众 号 “ 传 智 专修 学 院 ”。 


传 智 播客 
2020 年 2 月 
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21 世纪 最 有 价值 的 资产 是 数据 , 它 比 黄金 和 石油 更 有 价值 。 随 着 大 数据 时 代 的 到 来 ， 
待 处 理 的 数据 量 越 来 越 大 ,传统 的 关系 型 数据 库 在 可 扩展 性 .数据 模型 和 可 用 性 等 方面 都 遇 
到 了 难以 克服 的 障碍 。 此 时 各 种 NoSQL 数据 库 都 应 运 而 生 , 它 们 的 特点 各 不 相同 ,分 别 应 
用 于 不 同 的 场景 ,因此 得 到 了 企业 和 编程 者 的 青睐 ,主要 用 于 解决 大 规模 数据 集合 多 重 数据 
种 类 挑战 ,尤其 是 大 数据 应 用 难题 。 

本 书 分 为 10 章 , 各 章 内 容 如 下 。 

第 1 章 主要 是 带领 大 家 简单 认识 大 数据 时 代 对 数据 存储 的 挑战 .NoSQL 基本 理论 
(CAP 原则 、BASE 理论 .最 终 一 致 性 ) 以 及 NoSQL 数据 库 分 类 ( 键 值 对 存储 数据 库 、 文 档 存 
储 数据 库 、 列 式 存储 数据 库 、 图 形 存储 数据 库 以 及 NoSQL 数据 库 的 比较 ), 通 过 本 章 的 学 
习 , 读 者 可 以 对 NoSQL 数据 库 有 了 基本 的 认识 ,便于 后 续 章 节 的 学 习 。 

第 2 章 主要 讲解 文档 存储 数据 库 MongoDB 相关 知识 ,包括 MongoDB 概述 、MongoDB 
体系 结构 .MongoDB 数据 类 型 以 及 MongoDB 的 使 用 规范 。 通 过 本 章 的 学 习 , 读 者 可 以 认 
识 文档 存储 数据 库 MongoDB, 并 熟悉 MongoDB 的 体系 结构 .数据 类 型 和 使 用 规范 。 

第 3 章 主要 讲解 MongoDB 数据 库 操 作 相 关 知 识 , 包 括 MongoDB 部 署 数据库 操 作 、 集 
合 操作 .文档 操作 (插入 .更 新 .删除 .查询 .聚合 .索引 )、 使 用 Java 操作 MongoDB, t H 
Python 操作 MongoDB、 使 用 Robo 3T 操作 MongoDB 以 及 安全 与 访问 控制 。 通 过 本 章 的 
学 习 , 读 者 可 以 掌握 MongoDB 的 部 署 . 基 本 操作 以 及 安全 与 访问 控制 ,从 而 提高 MongoDB 
数据 库 中 数据 的 安全 。 

第 4 章 主 要 讲解 MongoDB 副本 集 ,包括 副本 集 概述 、 副 本 集成 员 、 部 署 副 本 集 、 副 本 集 
操作 以 及 副本 集 机 制 相关 知识 。 通 过 本 章 的 学 习 , 读 者 可 以 掌握 副本 集 的 部 署 与 操作 。 

第 5 章 主 要 讲解 MongoDB 分 片 相关 的 知识 , 即 分 片 概述 、 分 片 策 略 、 分 片 集群 架构 、 部 
署 分 片 集群 以 及 分 片 的 基本 操作 相关 知识 。 通 过 本 章 的 学 习 , 读 者 可 以 掌握 分 片 集群 的 部 
署 与 操作 。 

第 6 章 主要 讲解 MongoDB GridFS 相关 的 知识 ,包括 GridFS 概述 .GridFS 存储 结构 和 
GridFS 基本 操作 。 通 过 本 章 的 学 习 , 读 者 可 以 掌握 使 用 Shell, Java, Python 操作 GridFS 。 

第 7 章 主要 讲解 键 值 对 存储 数据 库 Redis 相关 知识 ,包括 Redis 概述 、Redis 支持 的 数 
据 结 构 、Redis 的 部 署 .使 用 redis-cli 操作 Redis 和 使 用 Java 操作 Redis。 通 过 阅读 本 章 , 读 
者 可 以 快速 有效 地 了 解 Redis, 从 而 更 好 、 更 高 效 地 使 用 Redis. 

第 8 章 主 要 讲解 列 式 存储 数据 库 HBase 相关 知识 ,包括 HBase 概述 、HBase 的 数据 模 
型 .HBase 的 架构 .HBase 的 部 署 .HBase 的 操作 。 通 过 阅读 本 章 , 读 者 可 以 快速 有效 地 了 
fft HBase, 从 而 更 好 、 更 高 效 地 使 用 HBase。 
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第 9 章 主 要 讲解 图 形 存储 数据 库 Neo4j 相关 知识 ,包括 Neo4j 概述 ,Neo4j 的 数据 模 
型 .Neo4j 的 部 署 .Neo4j 的 操作 。 通 过 阅读 本 章 ,读者 可 以 快速 ` 有 效 地 了 解 Neo4j ,从 而 更 
好 、 更 高 效 地 使 用 Neo4j。 

第 10 章 是 利用 前 面 章节 介绍 的 知识 构建 一 个 二 手 房 交易 数据 分 析 系 统 , 即 通 过 
Spark、MongoDB 以 及 WebMagic 等 技术 开发 二 手 房 交易 数据 分 析 系 统 。 通 过 本 章 的 学 习 ， 
读者 能 够 熟悉 MongoDB 在 大 数据 及 Java Web 方面 的 实际 应 用 ,并 了 解 怜 虫 程序 的 开发 与 
使 用 。 
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学 习 目标 

。 了 解 大 数据 时 代 对 数据 存储 的 挑战 

。 了 解 NoSQL 及 其 特点 

。 理解 NoSQL 基础 理论 

* 掌握 NoSQL 数据 库 分 类 

随 着 云 计算 、 物 联网 等 新 一 代 技术 的 发 展 ,在 移动 计算 ,社交 网 络 等 业务 的 推动 下 ,大 数 
据 技 术 产 生 并 迅速 地 建立 起 生态 体系 。 然 而 ,大 数据 在 推动 技术 变革 的 同时 ,企业 对 海量 数 
据 的 存储 、 并 发 访问 、 扩 展 等 要 求 越 来 越 高 。 由 于 传统 关系 数据 库 的 ACID 原则 、 结 构 规 整 
以 及 表 连 接 操 作 等 特性 成 为 制约 海量 数据 存储 、 并 发 访问 以 及 扩展 的 瓶颈 。 

而 NoSQL 数据 库 就 是 为 了 解决 海量 数据 的 存储 、 并 发 访问 以 及 扩展 而 出 现 的 , 它 具有 
数据 模型 灵活 、 并 发 访问 度 高 .易于 扩展 和 伸缩 .开发 效率 高 以 及 开发 成 本 低 等 优点 ,能 够 解 
决 大 规模 数据 集合 多 重 数据 种 类 挑战 ,尤其 是 大 数据 应 用 难题 。 本 章 将 针对 NoSQL 数据 
库 的 相关 知识 进行 详细 讲解 。 


1.1 大 数据 时 代 对 数据 存储 的 挑战 

目前 ,我 们 已 经 处 于 大 数据 时 代 。 大 数据 对 当前 数据 存储 ,访问 以 及 管理 均 带 来 了 前 所 
未 有 的 挑战 。 下 面 ,我 们 来 详细 介绍 一 下 大 数据 时 代 对 数据 存储 的 挑战 。 

1. 高 并 发 读 写 需求 


对 于 实时 性 ,动态 性 要 求 较 高 的 的 社交 网 站 ,如 论坛 . 微 博 等 ,往往 需要 并 发 度 达 到 每 秒 
上 万 次 的 读 写 请 求 , 这 种 很 高 的 并 发 性 对 数据 库 的 并 发 负载 相当 大 ,传统 关系 数据 库 在 面 对 
海量 数据 的 存储 和 操作 时 会 存在 严重 的 磁盘 1/0 瓶颈 。 


2. 高 效率 存储 和 访问 需求 


动态 交互 网 站 Web 2.0 每 天 产生 的 数据 量 是 巨大 的 ,如 果 采 用 传统 的 关系 数据 库 将 海 
量 数据 存放 到 具有 固定 结构 的 二 维 表格 中 ,不管 是 查询 还 是 更 新 操作 ,效率 都 是 非常 低 的 。 


3. 高 扩展 性 
关系 数据 库 很 难 实现 水 平 扩展 , 当 数 据 量 和 访问 量 多 到 需要 增加 硬件 和 服务 器 结 点 来 
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扩大 容量 和 负载 量 时 ,关系 数据 库 往往 需要 停机 维护 和 数据 迁移 ,这 对 一 个 需要 24 小 时 不 
停 服务 的 网 站 是 非常 不 可 取 的 。 

大 数据 要 求 数 据 管理 系统 既 能 实现 海量 数据 存储 ,又 能 高 效率 地 并 发 读 写 ,同时 必须 支 
持 扩展 性 。NoSQL 数据 库 作 为 传统 关系 数据 库 的 补充 ,弥补 了 传统 关系 数据 库 在 这 些 方面 
的 不 足 ,满足 了 海量 数据 的 存储 访问 和 管理 。 


1.2 认识 NoSQL 


1.2.1 NoSQL 简介 


NoSQL 一 词 最 早出 现 于 1998 年 , 它 是 Carlo Strozzi 开发 的 一 个 轻 量 .开源 .不 提供 
SQL 功能 的 关系 数据 库 。Carlo Strozzi 认为 ,由 于 NoSQL 人 悖 离 传统 关系 数据 库 模 型 , 因 
此 ,NoSQL 应 该 有 一 个 全 新 的 名 字 , 例 如 NoREL 或 与 之 类 似 的 名 字 。 

2009 年 ,Last.fm 的 Johan Oskarsson( 约 翰 。 奥 斯 卡 森 ) 发 起 了 一 次 关于 分 布 式 开源 数 
据 库 的 讨论 ,来 自 Rackspace 的 Eric Evans( 埃 里 克 … 埃 文 斯 ) 再 次 提出 了 NoSQL 的 概念 ， 
这 时 的 NoSQL 主要 指 非 关系 型 分布 式 .不 提供 ACID 的 数据 库 设计 模式 。 

2009 年 在 亚特兰大 举行 的 “no: sql(east)” 讨 论 会 是 一 个 里 程 碑 , 该 讨论 会 的 口号 是 
"select fun. profit from real world where relational 二 false;”。 因 此 ,对 NoSQL 最 普遍 的 解 
释 是 “ 非 关系 型 的 ”, 主 要 是 强调 键 值 存储 和 文档 存储 数据 库 的 优点 ,而 不 是 单纯 地 反对 关系 
数据 库 。 

现 如 今 ,大 家 看 到 NoSQL 这 个 词 , 可 能 会 误 以 为 是 "Nol SQL ”的 缩写 ,并 深 感 证 异 ， 
“SQL 怎么 会 没有 必要 了 呢 ?”, 实 际 上 ,NoSQL 是 Not Only SQL 的 缩写 , 它 的 含义 为 "不仅 
仅 是 SQL”。NoSQL 是 一 种 非 关 系 型 分布 式 .无须 遵循 ACID 原则 ,不 提供 SQL 功能 的 数 
据 库 ,是 对 关系 型 数据 库 在 灵活 性 和 扩展 性 上 的 补充 。NoSQL 的 出 现 主要 是 解决 大 规模 数 
据 集合 下 数据 种 类 多 样 性 带 来 的 挑战 ,尤其 是 大 数据 应 用 难题 。 


1.2.2 NoSQL 特点 


NoSQL 具有 "“ 易 扩展 “高 性 能 “灵活 的 数据 模型 "以 及 “高 可 用 ”等 显著 特点 ,这 些 特点 
的 具体 介绍 如 下 。 


1. 易 扩展 


虽然 NoSQL 数据 库 的 种 类 繁多 ,但 是 它们 都 拥有 一 个 共同 的 特点 , 即 去 掉 关系 数据 库 
的 关系 型 特性 。 数 据 之 间 均 无 关系 ,这 就 使 得 数据 库 可 以 非常 容易 地 扩展 ,这 是 完全 区 别 于 
传统 关系 型 数据 库 的 一 大 特性 。 


NoSQL 数据 库 具有 高 并 发 读 写 性 能 ,这 一 点 在 海量 数据 的 处 理 上 表现 得 尤其 明显 。 这 
一 点 是 得 益 于 NoSQL 数据 库 的 无 关系 性 , NoSQL 数据 库 的 结构 比较 简单 。 我 们 都 知道 ， 
传统 的 关系 数据 库 MySQL 使 用 Query Cache, 每 更 新 一 次 数据 表 ,cache 就 会 失效 ,在 Web 
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2.0 时 代 , 短 时 间 内 会 有 大 量 数据 进行 频繁 的 交互 应 用 ,这 样 一 来 ,cache 性 能 和 效率 就 会 不 
高 。 而 NoSQL 的 cache 是 记录 级 的 ,是 一 种 细 粒 度 的 cache, 所 以 与 传统 关系 数据 库 相 比较 
而 言 ,NoSQL 在 这 个 层面 上 来 说 性 能 就 要 高 很 多 。 


3. 灵活 的 数据 模型 


NoSQL 数据 库 不 需要 事先 为 存储 的 数据 建立 相应 的 字段 ,用 户 可 以 随时 存储 自 定义 的 
各 种 数据 格式 。 而 在 关系 数据 库 里 ,需要 在 数据 表 里 增 加 或 者 删除 字段 是 一 件 非常 麻烦 的 
事情 ,尤其 是 在 非常 大 的 数据 表 里 , 增 加 字段 简直 就 是 一 个 焉 梦 ,这 点 在 大 数据 量 的 Web 2.0 
时 代 尤 其 明显 。 


4. 高 可 用 


NoSQL 在 不 太 影响 性 能 的 情况 下 ,可 以 方便 地 实现 高 可 用 的 架构 ,例如 HBase 高 可 用 
集群 和 MongoDB 副本 集 。 


1.2.3. 关系 数据 库 与 非 关 系数 据 库 的 区 别 


目前 的 数据 库 主 要 分 为 关系 数据 库 和 非 关 系数 据 库 两 类 ,二 者 在 多 个 方面 均 有 所 区 别 ， 
具体 如 下 。 


1. 存储 方式 


传统 的 关系 数据 库 采 用 表 的 格式 进行 存储 ,数据 以 行 和 列 的 方式 进行 存储 , 读 取 和 查询 
都 十 分 方便 。 而 非 关 系数 据 库 却 不 适合 以 表 的 格式 进行 存储 ,通常 是 以 数据 集 的 方式 进行 
存储 ,即将 大 量 数据 都 集中 在 一 起 存储 ,类 似 于 键 值 对 、 图 结构 或 者 文档 。 


2. 存储 结构 


关系 数据 库 按照 结构 化 的 方法 存储 数据 ,每 张 数据 表 都 必须 事先 定义 好 数据 表 的 表 结 
构 , 然 后 再 根据 数据 表 的 表 结构 存储 数据 。 这 样 做 的 好 处 是 由 于 数据 的 形式 和 内 容 在 存储 
数据 之 前 就 已 经 定义 好 ,因此 整 张 数据 表 的 可 靠 性 和 稳定 性 都 比较 高 ,但 带 来 的 问题 就 是 一 
旦 数据 表 存 储 数据 后 , 若 需 要 修改 数据 表 的 结构 就 会 十 分 困难 。 

而 非 关系 数据 库 采 用 的 是 动态 结构 ,如 果 面 对 大 量 非 结 构 化 数据 的 存储 , 它 可 以 非常 轻 
松 地 适应 数据 类 型 和 结构 的 改变 ,也 可 以 根据 数据 存储 的 需要 灵活 地 改变 数据 表 的 结构 。 


3. 存储 规范 


关系 数据 库 为 了 规范 化 数据 ,避免 重复 数据 ,以 及 充分 利用 存储 空间 ,将 数据 按照 最 小 
关系 表 的 形式 进行 存储 ,这 样 的 数据 管理 就 变 得 很 清晰 ` 一 目 了 然 , 但 这 仅仅 是 在 一 张 数据 
表 的 情况 下 。 随 着 数据 表 数 量 的 增加 ,数据 的 管理 也 会 越 来 越 复杂 ,因为 多 张 数据 表 之 间 存 
在 着 复杂 的 关系 ,导致 数据 的 管理 会 比较 复杂 。 

非 关系 数据 库 的 数据 存储 方式 是 用 平面 数据 集 的 方式 集中 存放 ,虽然 会 出 现 数据 被 重复 
存储 造成 浪费 存储 空间 的 情况 。 但 是 ,通常 单个 数据 库 都 是 采用 单独 存储 的 形式 ,很 少 采 用 分 
割 存储 的 方式 ,因此 这 样 的 数据 往往 被 存储 成 一 个 整体 ,这 对 数据 的 读 写 提供 了 极 大 的 方便 。 
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4. 扩展 方式 


关系 数据 库 是 将 数据 存储 在 数据 表 中 ,因此 在 进行 多 张 数据 表 操 作 时 ,会 出 现 IO OR 
颈 ; 当 数据 表 的 数量 越 多 时 ,这 个 瓶颈 越 严 重 。 如 果 想 要 缓解 这 个 问题 ,只 能 提高 处 理 能 力 ， 
也 就 是 选择 速度 更 快 ,性 能 更 高 的 计算 机 。 虽 然 可 以 扩展 空间 ,但 是 扩展 的 空间 是 有 限 的 ， 
也 就 是 说 ,关系 数据 库 也 可 以 水 平 扩展 ,只 不 过 相 比较 非 关 系数 据 库 较 为 复杂 。 

非 关系 数据 库 使 用 的 是 数据 集 的 存储 方式 , 它 的 存储 方式 是 分 布 式 的 ,因此 可 以 采用 水 
平 扩展 方式 来 扩展 数据 库 。 也 就 是 说 ,可 以 添加 更 多 数据 库 服 务 器 到 资源 池 , 然 后 由 增加 的 
服务 器 来 分 担 数 据 量 增加 带 来 的 IO 开销 。 


5. 查询 方式 


关系 数据 库 是 采用 结构 化 查询 语言 ( 即 SQL) 来 对 数据 库 进行 查询 ,SQL 支持 数据 库 的 
CRUD 操作 ,具有 非常 强大 的 功能 ; 非 关 系数 据 库 使 用 的 是 非 结构 化 查询 语言 (UnQL)， 
UnQL 以 数据 集 ( 像 文档 ) 为 单位 来 管理 和 操作 数据 。 由 于 没有 统一 的 标准 ,所 以 每 个 数据 
库 厂 商 提供 产品 标准 是 不 一 样 的 ,例如 , 非 关 系数 据 库 MongoDB 中 的 文档 ID 与 关系 数据 
库 中 表 的 主键 概念 类 似 。 


6. 规范 化 


在 关系 数据 库 中 ,一 个 数据 实体 需要 分 割 成 多 个 部 分 ,然后 再 对 分 割 的 部 分 进行 规范 化 
处 理 , 规 范 化 后 再 分 别 存储 到 多 张 关系 数据 表 中 ,这 是 一 个 复杂 的 过 程 。 但 是 , 随 着 软件 技 
术 的 发 展 ,一 些 软件 开发 平台 提供 了 一 些 简单 的 解决 方法 ,例如 ,利用 ORM 层 (对 象 关 系 映 
射 ) 将 数据 库 中 的 对 象 模型 映射 到 基于 SQL 的 关系 数据 库 中 ,或 者 对 不 同类 型 系统 的 数据 
进行 转换 ; 非 关系 数据 库 则 没有 这 方面 的 问题 , 它 不 需要 规范 化 数据 , 非 关系 数据 库 通常 是 
在 一 个 单独 的 存储 单元 中 存储 一 个 复杂 的 数据 实体 。 


7. 事务 性 


关系 数据 库 强调 ACID 规则 ( 即 原子 性 、 一 致 性 隔离 性 以 及 持久 性 ) ,可 满足 对 事务 性 
要 求 较 高 或 者 需要 进行 复杂 数据 查询 的 数据 操作 ,也 可 充分 满足 数据 库 操 作 的 高 性 能 和 稳 
定性 的 要 求 。 关 系数 据 库 强调 数据 的 强 一 致 性 ,对 事务 的 操作 有 很 好 的 支持 。 关 系数 据 库 
可 以 控制 事务 原子 性 细 粒 度 ,并且 一 旦 操作 有 误 或 者 有 需要 ,可 马上 回 滚 事 务 。 

非 关 系数 据 库 强调 BASE 原则 ( 即 基本 可 用 、 软 状态 和 最 终 一 致 性 ) , 它 减 少 了 对 数据 
的 强 一 致 性 支持 ,不 能 很 好 地 支持 事务 操作 。 但 是 需要 注意 , 非 关系 数据 库 中 MongoDB 数 
据 库 的 4.0 及 以 上 版 本 , 均 能 够 支持 事务 操作 。 


8. 读 写 性 能 


关系 数据 库 强 调 数据 的 一 致 性 ,为 此 降低 了 数据 的 读 写 性 能 。 虽 然 关 系 型 数据 库 可 以 
很 好 地 存储 和 处 理 数据 ,但 是 处 理 海量 数据 时 效率 会 变 得 很 低 , 尤 其 是 遇 到 高 并 发 读 写 时 ， 
性 能 会 很 快 地 下 降 。 

非 关系 数据 库 可 以 很 好 地 应 对 海量 数据 ,也 就 是 说 , 它 可 以 很 好 地 读 写 每 天 产生 的 非 结 


构 化 数据 。 由 于 非 关 系数 据 库 是 以 数据 集 的 方式 进行 存储 的 ,因此 扩展 和 读 写 都 是 非常 容 
易 的 。 


9. 授权 方式 


关系 数据 库 包 括 Oracle, SQL Server, DB2 以 及 MySQL 等 ,除了 MySQL 以 外 ,大 多 数 
的 关系 数据 库 都 是 非 开 源 的 , 若 要 使 用 的 话 , 则 需要 支付 高 昂 的 费用 ; 非 关 系数 据 库 包括 
Redis, HBase, MongoDB, Memcache 等 都 是 开源 的 ,使 用 时 不 需要 支付 费用 (企业 版 除 
外 ) 。 


1.3 NoSQL 基础 理论 


NoSQL 理论 的 基础 是 由 CAP 原则 、BASE 理论 以 及 最 终 一 致 性 奠定 的 。NoSQL 是 在 
传统 RDBMS 的 理论 架构 上 ,针对 分 布 式 数 据 存 储 理论 进行 了 理论 上 的 革新 。 下 面 ,我 们 将 
分 别 对 CAP 原则 .BASE 理论 以 及 最 终 一 致 性 进行 详细 讲解 。 


1.3.1 CAP 原则 


2000 年 ,Eric Brewer 在 ACM PODC 分 布 式 计 算 原 理 专 题 讨 论 会 上 首次 提出 CAP 原 
则 。 后 来 , 麻 省 理工 学 院 的 两 位 科学 家 ( 赛 斯 。 吉 尔 伯 特 和 南 希 。 林 奇 ) 证 明了 CAP 原则 的 
正确 性 。 目 前 ,CAP 原则 被 大 型 公司 广泛 采纳 ,例如 Amazon 公司 。 

CAP 原则 又 称 CAP 定理 , 它 包 括 一 致 性 (Consistency)、 可 用 性 (Availability) 和 分 区 容 
错 性 (Partition Tolerance) 三 大 要 素 , 三 大 要 素 的 介绍 具体 如 下 : 

。 一 致 性 : 系统 在 执行 过 某 项 操作 后 ,仍然 处 于 一 致 的 状态 。 在 分 布 式 系统 中 ,更 新 

操作 执行 成 功 后 所 有 的 用 户 都 应 该 读 取 到 最 新 的 值 ,这 样 的 系统 被 认为 具有 一 
致 性 。 

* 可 用 性 : 每 一 个 操作 总 是 能 够 在 一 定 的 时 间 内 返回 结果 ,这 里 需要 注意 的 是 “一 定 
时 间 内 ”和 * 返 回 结 果 ”, 也 就 是 说 系统 的 结果 必须 在 给 定 的 时 间 内 返回 ,车 超时 , 则 
被 认为 是 不 可 用 的 。 

。 分 区 容错 性 : 系统 存在 网 络 分 区 的 情况 下 ,仍然 可 以 接受 请 求 ( 即 满足 一 致 性 和 可 
用 性 )。 网 络 分 区 指 的 是 由 于 某 种 原因 网 络 被 分 成 若干 个 孤立 的 区 域 ,而 区 域 之 间 
互 不 相通 。 分 区 容错 性 可 理解 为 系统 对 结 点 动态 加 入 和 离开 的 处 理 能 力 , 因 为 结 点 
的 加 入 和 离开 可 认为 是 集群 内 部 的 网 络 分 区 。 

CAP 原则 中 ,一 个 分 布 式 系统 中 最 多 可 同时 实现 上 述 的 两 个 要 素 , 不 可 同时 实现 三 个 
要 素 , 具 体 如 图 1-1 所 示 。 

从 图 1-1 中 可 以 看 出 ,CAP 原则 最 多 可 以 同时 实现 两 个 要 素 , 即 AP、CP 或 AC, 不 存在 
同时 实现 三 个 要 素 的 情形 , 即 CAP。 若 是 分 布 式 系 统 中 的 数据 无 副本 的 话 , 系 统 必然 会 满 
足 一 致 性 (因为 只 有 单独 的 数据 ,不 会 出 现 数据 不 一 致 的 情况 ) ;若是 分 布 式 系统 中 出 现 了 网 
络 分 区 状况 或 者 罕 机 , 则 必然 会 导致 某 些 数据 不 可 以 访问 ,此 时 就 不 能 满足 可 用 性 要 素 , 即 
在 此 情况 下 获得 了 CP 系统 ,但 是 CAP 是 不 可 同时 满足 的 。 

接 下 来 ,我 们 通过 一 张 表 来 描述 CAP 原则 的 取舍 策略 与 应 用 场景 ,具体 如 表 1-1 所 示 。 
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1-1 CAP 原则 


表 1-1 CAP 原则 的 取舍 策略 与 应 用 场景 


取舍 策略 应 用 场景 
CA( 一 致 性 和 可 用 性 ) Oracle、SQL Server 以 及 MySQL 等 
CP( 一 致 性 和 分 区 容错 性 ) MongoDB、HBase 以 及 Redis 等 
AP( 可 用 性 和 分 区 容错 性 ) CouchDB、Cassandra 以 及 DynamoDB 等 


在 表 1-1 中 ,选择 CA 策略 ,意味 着 放弃 P, 也 就 是 说 ,保证 了 系统 的 一 致 性 和 可 用 性 , 却 
违背 了 分 布 式 系统 的 分 区 容错 性 ;选择 CP 策略 ,意味 着 放弃 A, 也 就 是 说 ,保证 了 系统 的 一 
致 性 和 分 区 容错 性 ,但 用 户 的 体验 较 差 , 即 当 系统 宕 机 时 ,需要 等 待 所 有 结 点 的 数据 一 致 时 ， 
用 户 才 可 访问 系统 ;选择 AP 策略 ,意味 着 放弃 C, 也 就 是 说 ,保证 了 系统 的 可 用 性 和 分 区 容 
错 性 ,但 是 结 点 之 间 的 数据 会 出 现 不 一 致 的 现象 。 因 此 ,我们 可 以 根据 自己 的 需求 ,选择 对 
应 的 策略 。 


1.3.2 BASE 理论 


BASE 理论 是 eBay 的 架构 师 Dan Pritchett 在 ACM 上 发 表 文 章 提出 的 , 它 是 对 CAP 
原则 中 一 致 性 和 可 用 性 权衡 的 结果 ,也 是 对 CAP 原则 的 延伸 。BASE 理论 的 核心 思想 是 即 
使 无 法 保证 系统 的 强 一 致 性 (strong consistency, BI CAP 的 一 致 性 就 是 强 一 致 性 ) ,但 每 个 
应 用 都 可 以 根据 自身 的 业务 特点 ,采用 适当 的 方式 来 使 系统 达到 最 终 一 致 性 (eventual 
consistency) 。 

BASE 理论 与 CAP 原则 类 似 , 也 包含 三 大 要 素 , 即 基本 可 用 (Basically Available) 、 软 状 
态 (Soft-State) 和 最 终 一 致 性 (Eventually Consistent) ,具体 含义 如 下 : 

* 基本 可 用 ,是 指 分 布 式 系 统 在 出 现 不 可 预知 故障 的 时 候 , 允 许 损失 部 分 可 用 性 ,保证 

系统 的 核心 可 用 即 可 。 需 要 注意 的 是 ,基本 可 用 不 等 价 于 系统 不 可 用 。 

。 软 状态 ,也 称 为 弱 状 态 , 和 硬 状态 是 相对 的 , 它 是 指 允 许 系统 中 的 数据 存在 中 间 状 

态 , 并 认为 该 中 间 状 态 的 存在 不 会 影响 系统 的 整体 可 用 性 , 即 允 许 系统 在 不 同 结 点 
的 数据 副本 之 间 进 行 数据 同步 的 过 程 存在 延 时 。 
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。 最 终 一 致 性 ,是 指 系统 中 的 所 有 数据 副本 经 过 一 定时 间 后 ,最 终 能 够 达到 一 致 的 状 
态 。 因 此 ,最 终 一 致 性 的 本 质 是 需要 系统 保证 最 终 数据 能 够 达到 一 致 , 而 不 需要 实 
时 保证 系统 数据 的 强 一 致 性 。 
BASE 理论 与 关系 数据 库 中 的 ACID 理论 是 两 种 截然 相反 的 理论 。 下 面 , 我 们 通过 一 
张 表 来 分 析 BASE 理论 和 ACID 理论 的 区 别 , 具 体 如 表 1-2 所 示 。 


表 1-2 BASE 理论 和 ACID 理论 的 区 别 


区 别 BASE 理论 ACID 理论 

一 致 性 弱 一 致 性 强 一 致 性 

可 用 性 可 用 性 优先 可 用 性 不 作 要 求 

灵活 性 变化 速度 快 .灵活 难以 变化 
1.3.3 ”最 终 一致 性 


数据 的 一 致 性 可 以 根据 强度 的 不 同 分 为 两 种 , 即 强 一 致 性 和 弱 一 臻 性。 其中, 强 一 致 性 
要 求 集群 中 的 所 有 结 点 的 状态 实时 保持 一 致 ; 弱 一 致 性 不 要 求 系统 各 结 点 状态 实时 保持 一 
致 ,而 最 终 一 致 性 是 弱 一 致 性 的 一 种 特殊 形式 。NoSQL 数据 库 通常 选择 放弃 强 一 致 性 ,用 
最 终 一 致 性 的 思想 设计 分 布 式 系统 ,从 而 使 得 系统 达到 高 可 用 性 和 高 扩展 性 。 
最 终 一 致 性 , 指 的 是 保证 用 户 最 终 能 够 读 取 到 某 操作 对 系统 特定 数据 的 更 新 。 但 是 随 
着 时 间 的 迁移 ,不 同 结 点 上 的 同一 份 数据 总 是 在 向 趋同 的 方向 变化 。 也 可 以 简单 地 理解 为 ， 
在 一 段 时 间 后 , 结 点 之 间 的 数据 会 最 终 达 到 一 致 状态 。 实 现 最 终 一 致 性 最 常见 的 系统 是 
DNS 域名 系统 ,由 于 DNS 是 多 级 缓存 的 实现 ,所 以 修改 DNS 记录 后 不 会 立刻 在 全 球 所 有 
的 DNS 服务 结 点 生效 ,需要 等 DNS 服务 器 缓存 过 期 后 ,再 向 源 服 务 器 更 新 新 的 记录 才能 
ER. 
最 终 一 致 性 可 以 分 为 “因果 ”一 致 性 “ 读 已 之 所 写 ” 一 致 性 “会 话 ” 一 致 性 “单调 读 ” 一 
致 性 以 及 “单调 写 " 一 致 性 ,具体 介绍 如 下 : 
。“ 因 果 "” 一 致 性 : 如 果 进 程 A 通知 进程 B 它 已 更 新 了 一 个 数据 项 ,那么 进程 B 的 后 续 
访问 将 返回 更 新 后 的 值 , 且 一 次 写 人 将 保证 取代 前 一 次 写 人 。 与 进程 A 无 因果 关 
系 的 进程 C 的 访问 遵循 一 般 的 最 终 一 致 性 规则 。 
。“ 读 已 之 所 写 ” 一 致 性 ; 指 的 是 进程 A 在 修改 了 数据 后 , 它 总 能 读 取 到 修改 过 的 数据 
值 ,而 不 会 读 取 到 原始 值 。 读 己 之 所 写 一 致 性 是 因果 一 致 性 的 一 个 特例 。 
。，。“ 会 话 ” 一 致 性 : 指 的 是 将 访问 存储 系统 的 进程 放 到 会 话 的 上 下 文中 ,若是 会 话 存 
在 , 则 系统 就 保证 “ 读 已 之 所 写 " 一 致 性 ;若是 由 于 系统 宕 机 或 者 网 络 不 稳定 导致 会 
话 终止 , 则 需要 建立 新 的 会 话 。 
““ 单 调 读 " 一 致 性 : 指 的 是 进程 已 经 读 取 过 数据 对 象 的 某 个 值 , 则 任何 后 续 访 问 都 不 
会 返回 在 这 个 值 之 前 的 值 , 这 样 就 可 以 保证 每 个 客户 端 在 之 后 的 请 求 中 获取 到 的 数 
据 是 最 新 的 数据 。 
。“ 单 调 写 " 一 致 性 : 指 的 是 系统 保证 来 自 同一 个 进程 的 写 操作 是 顺序 执行 的 。 
上 述 最 终 一 致 性 的 不 同形 式 可 以 进行 组 合 ,例如 * 单 调 读 ? 一 致 性 和 * 读 已 之 所 写 " 一 致 
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性 进行 组 合 ,就 可 以 读 取 自己 更 新 的 数据 和 一 旦 读 取 到 最 新 的 数据 就 不 会 再 读 到 旧版 本 的 
数据 ,这 样 可 以 使 得 存储 系统 降低 了 一 致 性 的 要 求 并 提供 了 高 可 用 性 。 


1.4 NoSQL 数据 库 分 类 


NoSQL 数据 库 在 整个 数据 库 领 域 的 地 位 已 经 不 言 而 喻 了 , 它 主要 有 四 大 类 型 , 即 键 值 
对 存储 数据 库 文档 存储 数据 库 、 列 式 存储 数据 库 以 及 图 形 存储 数据 库 , 其 中 ,每 一 种 类 型 的 
数据 库 都 能 够 解决 关系 数据 库 不 能 解决 的 问题 。 下 面 ,我 们 将 分 别 讲解 键 值 对 存储 数据 库 、 
文档 存储 数据 库 、 列 式 存储 数据 库 以 及 图 形 存储 数据 库 的 相关 内 容 。 


1.4.1. 键 值 对 存储 数据 库 


键 值 对 存储 数据 库 是 NoSQL 数据 库 中 的 一 种 类 型 ,也 是 最 简单 的 NoSQL 数据 库 。 键 
值 对 存储 数据 库 中 的 数据 是 以 键 值 对 的 形式 来 存储 的 。 键 值 对 存储 数据 库 的 结构 示意 图 ， 
具体 如 图 1-2 所 示 。 
键 值 对 存储 数据 库 
键 (key) 值 (value) 


[us [ m ] 


图 1-2 键 值 对 存储 数据 库 的 结构 示意 图 


从 图 1-2 中 可 以 看 出 , 键 值 对 存储 数据 库 的 结构 实际 上 是 一 个 映射 , 即 键 (key) 是 查找 
每 条 数据 的 唯一 标识 符 , 值 (value) 是 该 数据 实际 存储 的 内 容 。 键 值 对 存储 数据 库 结 构 是 采 
用 哈 希 函数 来 实现 键 到 值 的 映射 。 当 查询 数据 时 ,基于 键 的 哈 希 值 会 直接 定位 到 数据 所 在 
的 位 置 ,实现 快速 查询 ,并 支持 海量 数据 的 高 并 发 查询 。 

常见 的 键 值 对 存储 数据 库 有 Redis、Tokyo Cabinet/Tyrant, Voldemort 以 及 Oracle 
BDB 等 数据 库 。 键 值 对 存储 数据 库 主 要 应 用 于 会 话 存储 和 购物 车 等 场景 ,具体 介绍 如 下 。 

会 话 存储 指 的 是 一 个 面向 会 话 的 应 用 程序 (如 Web 应 用 程序 ) 在 用 户 登 录 时 启动 会 话 ， 
并 保持 活动 状态 直到 用 户 注销 或 会 话 超时 ,在 此 期 间 , 应 用 程序 将 所 有 与 会 话 相 关 的 数据 存 
储 在 内 存 或 键 值 对 存储 数据 库 中 。 会 话 数据 包括 用 户 资料 信息 、 消 息 、 个 性 化 数据 和 主题 、 
建议 .有 针对 性 的 促销 和 折扣 。 每 个 用 户 会 话 具有 了 唯一 的 标识 符 , 除 了 主键 之 外 ,任何 其 他 
刍 都 无 法 查询 会 话 数据 ,因此 键 值 对 存储 数据 库 更 适合 于 存储 会 话 数据 。 

购物 车 指 的 是 电子 商务 网 站 中 的 购物 车 功能 。 在 假日 购物 季 , 电 子 商务 网 站 可 能 会 在 
几 秒 钟 内 收 到 数 十 亿 份 订单 , 键 值 对 存储 数据 库 可 以 处 理 海 量 数据 的 扩展 和 极 高 的 状态 变 
化 ,同时 通过 分 布 式 处 理 和 存储 .为数 百 万 并 发 用 户 提 供 服 务 。 此 外 , 键 值 对 存储 数据 库 还 
具有 内 置 元 余 的 功能 ,可 以 处 理 丢 失 的 存储 结 点 。 
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1.4.2 文档 存储 数据 库 


文档 存储 数据 库 不 是 文档 管理 系统 。 文 档 存储 数据 库 是 用 于 存储 和 管理 文档 ,其 中 文 
档 是 结构 化 的 数据 (如 JSON 格式 )。 文 档 存储 数据 库 的 结构 示 em 
意图 如 图 1-3 所 示 。 

从 图 1-3 中 可 以 看 出 ,文档 存储 数据 库存 储 的 文档 可 以 是 不 
同 结构 的 , 即 JSON XML 以 及 BSON 等 格式 。 

常见 的 文档 存储 数据 库 有 MongoDB、CouchDB 以 及 
RavenDB 等 数据 库 。 文 档 存 储 数 据 库 主要 应 用 于 内 容 管理 应 用 
程序 和 电子 商务 应 用 程序 等 场景 。 dz 

内 容 管理 应 用 程序 存储 数据 ,首选 的 就 是 文档 存储 数据 库 , 例 BSON 
如 博客 和 视频 平台 主要 使 用 的 数据 库 就 是 文档 存储 数据 库 。 通 过 
文档 存储 数据 库 , 内 容 管理 应 用 程序 所 跟踪 的 每 个 实体 都 可 存储 为 图 13 文档 存储 数据 库 的 
单个 文档 。 随 着 需求 的 发 展 , 对 于 开发 人 员 来 说 ,可 以 使 用 文档 存 TOTAM 
储 数据 库 更 直观 地 更 新 应 用 程序 。 此 外 ,如 果 需 要 更 改 数据 模型 ， 

则 只 需要 更 新 受 影响 的 文档 即 可 ,而 不 需要 更 新 架构 ,也 不 需要 等 到 数据 库 停机 时 进行 更 改 。 

在 电子 商务 应 用 程序 中 ,文档 存储 数据 库 可 以 高 效 且 有 效 地 存储 商品 的 信息 。 例 如 ,在 
电子 商务 应 用 程序 中 ,不 同 的 产品 具有 不 同 数 量 的 属性 。 若 是 在 关系 型 数据 库 中 管理 数 千 
个 属性 , 则 效率 比较 低 ,并 且 阅 读 的 性 能 会 受到 影响 ;若是 使 用 文档 存储 数据 库 的 话 ,可 以 在 
单个 文档 中 描述 每 个 产品 的 属性 , 既 可 以 方便 管理 ,又 可 以 加 快 阅读 产品 的 速度 ,并 且 更 改 
一 个 产品 的 属性 不 会 影响 其 他 的 产品 。 


1.44.8 列 式 存储 数据 库 


列 式 存储 数据 库 是 以 列 为 单位 存储 数据 ,然后 将 列 值 顺序 地 存 和 数据库 中 ,这 种 数据 存 
储 方法 不 同 于 基于 行 式 存储 的 传统 关系 数据 库 。 列 式 存储 数据 库 可 以 高 效 地 存储 数据 ,也 
可 以 快速 地 处 理 针对 批量 数据 的 实时 查询 。 列 式 存储 数据 库 的 结构 示意 图 如 图 1-4 所 示 。 
列 式 存储 数据 库 


1-4” 列 式 存 储 数 据 库 的 结构 示意 图 


从 图 1-4 中 可 以 看 出 ,在 列 式 存储 数据 库 中 ,如 果 列 值 不 存在 , 则 不 需要 存储 (阴影 部 分 
为 列 值 不 存在 ) ,这 样 的 话 , 遇 到 Null 值 ,就 不 需要 存储 :可 以 减少 IO 操作 和 避免 内 存 空 间 
的 浪费 。 
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常见 的 列 式 存储 数据 库 有 HBase、Cassandra、Riak 以 及 HyperTable 等 数据 库 。 列 式 
存储 数据 库 主要 应 用 于 事件 记录 博客 网 站 等 场景 。 

在 事件 记录 中 ,使 用 列 式 存储 数据 库 来 存储 应 用 程序 的 状态 以 及 应 用 程序 遇 到 错误 等 
事件 信息 。 由 于 列 式 存储 数据 库 具 有 高 扩展 性 ,因此 可 高 效 地 存储 应 用 程序 源源 不 断 产生 
事件 记录 。 

在 博客 网 站 中 , 列 式 存储 数据 库 可 以 将 博客 的 “标签 “类 别 ”“ 连 接 ” 及 “引用 通告 "等 内 
容 存 放 在 不 同 的 列 中 ,便于 进行 数据 分 析 。 


1.4.4 图 形 存 储 数 据 库 


图 形 存储 数据 库 不 是 网 络 数据 库 , 它 是 NoSQL 数据 库 的 一 种 类 型 ,主要 应 用 图 形 理论 
来 存储 实体 之 间 的 关系 信息 ,其 中 ,实体 被 视 为 图 形 的 “ 结 点 ”, 关 系 被 视 为 图 形 的 * 边 ”, 边 按 
照 关 系 将 结 点 进行 连接 。 图 形 存储 数据 库 的 结构 示意 图 如 图 1-5 Bron 


-o 
Toge? 


E F 
图 1-5 图 形 存储 数据 库 的 结构 示意 图 


图 形 存储 数据 库 


从 图 1-5 中 可 以 看 出 ,利用 图 形 存储 数据 库存 储 的 数据 ,可 以 很 清晰 地 知道 两 个 实体 之 
间 的 关系 , 即 A 和 D 是 朋友 .C 是 A 朋友 的 朋友 。 

常见 的 图 形 存储 数据 库 有 Neo4j、FlockDB、AllegroGrap 以 及 GraphDB 等 数据 库 。 图 
形 存储 数据 库 主要 应 用 于 欺诈 检测 .推荐 应 用 等 场景 。 

在 欺诈 检测 中 ,图 形 存储 数据 库 能 够 有 效 地 防范 复杂 的 欺诈 行为 。 在 现代 欺诈 及 各 种 
类 型 的 金融 犯罪 中 ,例如 银行 欺诈 、 信 用 卡其 诈 .电子 商务 欺诈 以 及 保险 欺诈 等 ,欺诈 者 通过 
使 用 改变 自己 身份 等 的 手段 逃避 风 控 规则 ,从 而 达到 欺诈 目的 。 尽 管 欺诈 者 可 以 改变 所 有 
涉及 网 络 的 关联 关系 ,也 可 以 在 所 有 涉及 网 络 的 群体 中 同步 执行 相同 操作 来 躲避 风 控 ,但 我 
们 可 以 通过 图 形 存储 数据 库 建 立 跟踪 全 局 用 户 的 跟踪 视角 ,实时 利用 图 形 存 储 数据 库 来 分 
析 具 有 欺诈 行为 的 离散 数据 ,从 而 识别 欺诈 环节 ,这 样 的 话 , 可 以 最 大 程度 上 快速 有 效 地 防 
范 和 解决 欺诈 行为 。 

在 推荐 应 用 中 ,我 们 可 以 借助 图 形 存储 数据 库存 储 购物 网 站 中 客户 的 购买 记录 客户 兴 
趣 等 信息 ,然后 根据 客户 当前 浏览 的 商品 结合 已 存储 的 购物 信息 ,从 而 推荐 相关 的 商品 。 


1.4.5 NoSQL 数据 库 的 比较 
在 前 面 小 节 中 ,我 们 分 别 介绍 了 NoSQL 数据 库 中 的 键 值 对 存储 数据 库 .文档 存储 数据 


ay 
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库 、 列 式 存储 数据 库 以 及 图 形 存储 数据 库 ,每 一 种 类 型 的 数据 库 都 有 其 独到 之 处 。 接 下 来 ， 
我 们 通过 一 张 表 对 NoSQL 数据 库 的 4 种 类 型 进行 比较 ,具体 如 表 1-3 所 示 。 


表 1-3 NoSQL 数据 库 的 比较 


数据 库 分 类 数据 类 型 常见 数据 库 应 用 场景 示例 
键 值 对 存储 数 Redis, Tokyo Cabinet/Tyrant, | 会 话 存储 、 网 站 购 
据 库 Key 指向 Value 的 键 值 对 Voldemort, Oracle BDB 物 车 等 
BSON 类 型 (全 称 Binary 内 容 管 理应 用 程 
文档 存储 数据 库 JSON, 即 二 进 制 JSON) ,也 | MongoDB CouchDB,RavenDB | 序 . 电 子 商 务 应 用 
称 为 类 JSON 程序 等 
以 列 进行 存储 ,将 同 列 数 据 | HBase、Cassandra、Riak、 日 志 记 录 、 博 客 网 
列 式 存储 数据 库 | 存储 到 一 起 HyperTable 站 等 
pys Neo4j,FlockDB, AllegroGrap, | 欺诈 检测 、 推 荐 应 
图 形 存 储 数据 库 图 结构 GraphDB 用 等 
1.5 Ju 


本 章 讲解 了 NoSQL 数据 库 相 关 的 知识 ,首先 介绍 大 数据 时 代 对 数据 存储 的 挑战 ,读者 
可 以 了 解 到 NoSQL 出 现 的 原因 ;接着 介绍 NoSQL 基础 知识 ,读者 可 以 掌握 NoSQL 的 发 
展 以 及 特点 ;然后 介绍 NoSQL 基础 理论 ,读者 可 以 理解 到 NoSQL 理论 的 基础 为 何 是 由 
CAP 原则 .BASE 理论 以 及 最 终 一 致 性 竟 定 的 ;最 后 介绍 NoSQL 数据 库 分 类 ,读者 可 以 掌 
握 NoSQL 数据 库 中 4 种 类 型 的 基本 概念 ,存储 结构 以 及 常见 应 用 场景 。 


1.6 


一 、 填 空 题 


. 大 数据 时 代 对 数据 存储 的 挑战 包括 高 并 发 读 写 需 求 、 
i 是 Not Only SQL 的 缩写 , 它 的 含义 为 “不 仅仅 是 SQL". 


课 后 习题 


ORT ETE, 


. NoSQL 理论 的 基础 是 由 .BASE 理论 以 及 BEHI o 


1 
2 
3. NoSQL 是 一 种 、 分 布 式 ,不 遵循 ACID, 功能 的 数据 库 。 
4 
5 


. NoSQL 数据 库 主 要 有 四 大 类 型 , 即 \ 文 档 存储 数据 库 、 


数据 库 。 
二 、 判 断 题 


. NoSQL 是 关系 数据 库 。 
. 非 关系 数据 库 采 用 的 是 动态 结构 存储 数据 。 


. CAP 理论 的 核心 思想 是 即使 无 法 保证 系统 的 强 一 致 性 。 


1 
2 
3. CAP 原则 包括 一 致 性 、 可 用 性 和 分 区 容错 性 三 大 要 素 。 
4 
5 


- 数据 的 一 致 性 可 根据 强度 分 为 强 一 致 性 和 弱 一 致 性 两 种 。 


一 一 一 一 一 


及 图 形 存储 
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三 、 选 择 题 

1. 下 列 数据 库 中 ,( ) 是 最 简单 的 NoSQL 数据 库 。 
A. 键 值 对 存储 数据 库 B. 文档 存储 数据 库 
C. 列 式 存储 数据 库 D. 图 形 存储 数据 库 


.下列 说 法 中 ,关于 文档 存储 数据 库 说 法 正确 的 是 ( e 
A. 文档 存储 数据 库 是 文档 管理 系统 
B. 文档 存储 数据 库 是 用 于 存储 和 管理 文档 ,其 中 文档 是 非 结 构 化 的 数据 
C. 文档 存储 数据 库存 储 的 文档 可 以 是 不 同 结构 的 
D. 文档 存储 数据 库 主 要 应 用 于 会 话 存储 和 购物 车 等 场景 


~ 


3. 下 列 选项 中 ,( ) 属 于 列 式 存储 数据 库 。 
A. MongoDB B. Redis C. Neo4j D. HBase 
、 简 答题 


1. 简 述 CAP 原则 的 选择 策略 与 应 用 场景 。 
2. 简 述 NoSQL 数据 库 的 4 种 类 型 。 


292 GR 
文档 存储 数据 库 MongoDB 


学 习 目标 
* 了 解 MongoDB 的 发 展 历程 
* 熟悉 MongoDB 的 数据 类 型 


* 掌握 MongoDB 的 架构 模式 
* 熟悉 MongoDB 的 使 用 规范 


MongoDB 是 NoSQL 文档 存储 数据 库 的 重要 一 员 ,是 当前 NoSQL 数据 库 产 品 中 最 热 
门 的 一 种 ,目前 在 数据 库 排 行 榜 排名 第 五 (前 四 名 分 别 是 Oracle, MySQL, SQL Server 和 
PostgreSQL) 。 本 章 将 针对 MongoDB 数据 库 的 相关 内 容 进行 详细 讲解 。 


2.1 MongoDB 概述 


MongoDB 是 由 C++ 语言 编写 的 非 关 系数 据 库 ,也 是 一 个 基于 分 布 式 文件 存储 的 开源 
数据 库 系统 。 在 种 类 繁多 的 非 关 系数 据 库 中 ,MongoDB 数据 库 的 功能 最 为 丰富 , 且 与 关系 
数据 库 有 着 较 高 的 相似 度 。 本 节 , 我 们 将 对 MongoDB 的 发 展 历程 .简介 以 及 优势 进行 
讲解 。 


2.1.1 MongoDB 的 发 展 历程 


MongoDB 公司 从 一 个 名 不 见 经 传 的 科技 创业 公司 ,发 展 成 为 家 喻 户 晓 的 知名 数据 库 
厂商 ;MongoDB 数据 库 从 一 个 默默 无 闻 的 小 透明 数据 库 ,成 长 为 各 大 公司 争 相 采 用 的 数据 
库 产品 。 下 面 ,我 们 来 回顾 一 下 MongoDB 的 主要 发 展 历程 。 
* 2007 年 , Dwight Merriman, Eliot Horowitz 和 Kevin Ryan 成 立 10gen 软件 公司 
(MongoDB 公司 的 前 身 ) 。 

* 2009 年 ,经 过 将 近 两 年 的 开发 , 10gen 开发 出 了 MongoDB 1.0 的 雏形 ,并 将 它 开源 
并 正式 命名 为 MongoDB, 同 时 成 立 开源 社区 ,通过 社区 运营 MongoDB ,打破 了 关系 
数据 库 一 统 天 下 的 局 面 。 

* 2010 年 ,10gen 公司 发 布 了 MongoDB 1.6 版 本 ,这 个 版 本 最 大 的 一 个 功能 就 是 

Sharding( 自 动 分 片 )。 
。 2013 年 ,Dwight Merriman 和 Eliot Horowitz 等 公司 创始 人 决定 将 10gen 公司 改名 
为 MongoDB 公司 。 
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* 2014 年 , MongoDB 收购 了 WiredTiger 存储 引擎 ,将 下 一 代 存 储 引 擎 技术 引入 
MongoDB, 大 幅 提 升 了 MongoDB 的 写 入 性 能 并 发 布 MongoDB 企业 版 ,丰富 了 
MongoDB 的 产品 。 

* 2016 年 ,MongoDB 与 公有 云 服务 厂商 (谷歌 .微软 Azure) 合 作 , 推 出 了 Atlas 服务 
(MongoDB Atlas). 

* 2017 4E, MongoDB 推出 后 端 服务 Stitch. 

* 2018 4E, MongoDB 发 布 4.0 版 本 ,推出 ACID 事务 支持 使 性 能 大 幅 提升 ,成 为 第 一 
个 支持 强 事务 的 NoSQL 数据 库 。 同 年 ,MongoDB 将 其 开源 授权 修改 为 SSPL。 


加 密 ” 的 支持 ,实现 对 用 户 JSON 文档 的 Value 进行 自动 加 密 等 功能 。 
2.1.2 MongoDB 的 简介 


MongoDB 是 一 种 可 扩展 的 敏捷 NoSQL 数据 库 , 其 中 的 mongo 取 自 单词 humongous 
的 中 间 部 分 ,意思 是 巨大 无 比 的 数据 库 , 能 够 存储 海量 数据 的 数据 库 。MongoDB 最 大 的 特 
点 是 支持 的 查询 语言 非常 强大 ,其 语法 类 似 于 面向 对 象 的 查询 语言 ,几乎 可 以 实现 类 似 关系 
数据 库 单 表 查 询 的 绝 大 部 分 功能 ,而 且 还 支持 对 数据 建立 索引 。MongoDB 是 一 个 面向 集 
合 、 模 式 自由 的 文档 型 数据 库 。 关 于 面向 集合 和 模式 自由 的 介绍 ,具体 如 下 : 

所 谓 “ 面 向 集合 "(collenction-oriented) ,意思 是 数据 被 分 组 存储 在 数据 集中 ,被 称 为 一 
个 集合 (collenction) 。 每 个 集合 在 数据 库 中 都 有 一 个 唯一 的 标识 名 ,并 且 可 以 包含 无 限 数 
目的 文档 。 集 合 的 概念 类 似 关系 数据 库 (RDBMS) 里 的 数据 表 (table) ,不 同 的 是 MongoDB 
不 需要 定义 任何 模式 (schema)。 

模式 自由 (schema-free) ,意味 着 对 于 存储 在 MongoDB 数据 库 中 的 文件 ,我 们 不 需要 知 
道 它 的 任何 结构 及 定义 。 如 果 需 要 的 话 ,完全 可 以 把 不 同 结构 的 文件 存储 在 同一 个 数据 


2.1.3 MongoDB 的 优势 


MongoDB 是 为 快速 开发 互联 网 Web 应 用 而 设计 的 数据 库 系 统 , 其 数据 模型 和 持久 化 策 
略 就 是 为 了 构建 高 吞吐 . 易 伸 缩 ` 可 自动 化 的 数据 存储 系统 。 无 论 系统 需要 一 个 或 多 个 结 点 ， 
MongoDB 均 可 提供 高 性 能 。MongoDB 还 可 以 很 好 地 避免 关系 数据 库 遇 到 的 伸缩 困境 。 

接 下 来 ,我 们 从 易 用 性 、 高 性 能 、 高 可 用 性 、 易 扩展 性 以 及 支持 多 种 存储 引擎 5 个 方面 来 
介绍 MongoDB 成 为 最 受 欢迎 的 NoSQL 数据 库 的 原因 。 

。 易 用 性 。 

MongoDB 面向 文档 的 数据 库 不 再 有 “ 行 (row)” 的 概念 ,取而代之 的 是 更 为 灵活 的 “ 文 
档 (document)” 模 型。 通过 在 文档 中 骨 入 文档 和 数组 的 方式 ,在 一 条 记录 中 表现 复杂 的 层 
级 关系 。 另 外 , MongoDB 没有 预定 义 模式 (predefined schema) ,文档 的 键 (key) 和 值 
Cvalue) 无 须 定义 固定 的 类 型 和 大 小 ,这 使 得 添加 或 删除 字段 变 得 更 为 容易 ,因此 开发 者 能 
够 进行 快速 迭代 ,加 快 开 发 进程 。 

* 高 性 能 。 

MongoDB 数据 库 对 文档 进行 了 动态 填充 ,对 数据 文件 进行 了 预 分 配 ,用 空间 来 保证 性 
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能 的 稳定 。MongoDB 的 优化 器 会 标记 出 查询 效率 最 高 的 方式 ,以 便 生成 高 效 的 查询 计划 。 


MongoDB 提供 高 性 能 数据 持久 性 可 以 减少 数据 库 系统 的 1/O 活动 ,也 可 以 通过 索引 支持 


更 快 的 查询 。 总 之 ,MongoDB 主要 将 大 部 分 的 内 存 用 作 缓 存 (Cache)。MongoDB 充分 考 
虑 了 各 个 方面 的 性 能 问题 ,以 实现 卓越 的 性 能 。 

。 高 可 用 性。 

MongoDB 副本 所 组 成 的 一 个 集群 , 称 为 副本 集 , 它 提供 了 自动 故障 转移 和 数据 元 余 功 
能 ,以 防止 数据 丢失 ,从 而 提高 数据 的 可 用 性 。 

。 易 扩展 性 。 

MongoDB 的 设计 采用 水 平 扩展 ,可 通过 分 片 将 数据 分 布 在 集群 机 器 中 。MongoDB 能 
够 自动 处 理 跨 集群 的 数据 和 负载 ,自动 重新 分 配 文档 ,并 将 用 户 的 请 求 路 由 到 正确 的 机 
器 上 。 

。 支持 多 种 存储 引擎 

MongoDB 支持 多 个 存储 引擎 包括 WiredTiger 存储 引擎 .内存 存储 引擎 (In-Memory) 
和 MMAPv1l 存储 引擎 。 

注意 : MongoDB 从 3.2 版 本 开始 ,默认 的 存储 引擎 是 WiredTiger,3.2 版 本 之 前 的 默认 
存储 引擎 是 MMAPv1.MongoDBA. x 版 本 不 再 支持 MMAPvI 存储 引擎 。 


2.2 MongoDB 体系 结构 


MongoDB 的 逻辑 结构 是 体系 结构 的 一 种 形式 , 它 是 一 种 层次 结构 ,主要 由 文档 
(Document) ,集合 (Collection) ,数据 库 (Database) 三 部 分 组 成 。MongoDB 的 逻辑 结构 是 面 
向 用 户 的 。 下 面 ,我 们 从 用 户 的 角度 对 MongoDB 的 体系 结构 进行 讲解 ,具体 如 图 2-1 
所 示 。 


数据 库 
(Database) 


集合 1 
E uou ) 


文档 1 文档 2 
(Documentl) A (Document2) 


集合 2 


mim 


文档 1 文档 2 
(Documentl) 八 (Document2) 


2-1 MongoDB 体系 结构 


从 图 2-1 中 可 以 很 清楚 地 看 出 数据 库 、 集 合 .文档 三 者 之 间 的 层级 关系 。 为 了 便于 更 清 
晰 地 理解 MongoDB 体系 结构 。 接 下 来 ,我 们 将 MongoDB 数据 库 的 体系 结构 和 MySQL 数 
据 库 的 体系 结构 进行 对 比 , 具 体 如 表 2-1 所 示 。 
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表 2-1 MongoDB 与 MySQL 体系 结构 的 对 比 
关系 数据 库 MySQL 非 关 系数 据 库 MongoDB 


数据 库 
(Database) 


Table( 表 ) 
i age Collection( 集 合 ) 
{"name":"itcast", "age" :13} 
nsan 13 {"name" ; " bozai" "age" :6} 
bozai 6 
Row( 行 ? Document( 文 档 ) 
itcast 13 {"name":"itcast", "age" :13} 


ER 2-1 中 ,我 们 列举 了 MongoDB 数据 库 和 MySQL 数据 库 体系 结构 的 不 同 之 处 , 主 
要 在 于 数据 库 、 数 据 表 ( 集 合 ) . 行 (文档 ) 三 个 方面 ,具体 介绍 如 下 。 


1. 数据 库 


在 MongoDB 中 ,数据 库存 储 着 集合 和 文档 。 一 个 数据 库 可 以 创建 多 个 集合 ,原则 上 我 
们 通常 将 逻辑 相近 的 集合 都 放 在 一 个 数据 库 中 ,不 过 出 于 性 能 和 数据 量 的 考虑 ,也 可 分 开 存 
储 。MongoDB 默认 提供 admin, local config 以 及 test 四 个 数据 库 ,具体 介绍 如 下 : 

* admin 数据 库 ,主要 存储 数据 库 账 号 的 相关 信息 。 
local 数据 库 , 可 以 用 于 存储 限于 本 地 单 台 服务 器 的 任意 集合 ,如 oplog 日 志 就 存储 
在 local 数据 库 中 ,该 数据 库 的 数据 不 会 被 复制 到 从 结 点 上 。 
* config 数据 库 , 用 于 存储 分 片 集群 中 与 分 片 相关 的 元 数据 信息 。 
test 数据 库 , 是 MongoDB 默认 创建 的 一 个 测试 库 , 当 连接 mongod 服务 时 ,如 果 不 
指定 连接 的 具体 数据 库 ,默认 就 会 连接 到 test 数据 库 。 


2. 集合 


集合 就 是 MongoDB 的 一 组 文档 ,分 为 一 般 集合 和 上 限 集合 。 一 般 集合 类 似 于 关系 数 
据 库 中 的 数据 表 。 集 合 是 无 模式 或 动态 模式 的 ,也 就 意味 着 集合 没有 固定 的 格式 。 在 读 写 
数据 前 ,不 需要 创建 集合 模式 就 可 使 用 ,因此 集合 中 的 文档 可 以 拥有 不 同 的 字段 ,也 可 以 任 
意 增 减 某 个 文档 的 字段 。 需 要 注意 的 是 ,通常 插入 集合 的 数据 都 具有 一 定 的 关联 性 。 上 限 
集合 (capped collections) 与 一 般 集 合 的 主要 区 别 在 于 其 可 以 限制 集合 的 容量 大 小 ,在 数据 
存 满 时 ,可 以 从 头 开始 覆盖 最 开始 的 文档 ,从 而 进行 循环 写 入 。 


3. 文档 
文档 以 键 值 对 的 形式 存储 在 集合 中 ,其 中 , 键 用 于 唯一 标识 一 个 文档 ,为 字符 串 类 型 ,而 
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值 则 可 以 是 各 种 复杂 的 文件 类 型 .我们 称 这 种 存储 形式 为 BSON(BSON 是 类 JSON 的 一 种 
二 进 制 形式 的 存储 格式 ,简称 BinaryJSON , 它 和 JSON 一 样 ,都 支持 内 艇 的 文档 对 象 和 数组 
对 象 ,但 是 BSON 有 JSON 没有 的 一 些 数据 类 型 ,如 Date 和 BinData 类 型 )。MongoDB 的 
文档 不 需要 设置 相同 的 字段 ,并 且 相 同 的 字段 不 需要 相同 的 数据 类 型 ,这 是 MongoDB 与 关 
系 型 数据 库 的 巨大 差异 。 

文档 中 不 能 有 重复 的 键 ,每 个 文档 都 有 一 个 默认 的 _id 键 , 它 相当 于 关系 数据 库 中 的 主 
键 ,这 个 键 的 值 在 同一 个 集合 中 必须 是 唯一 的 ，id 键 值 默 认 是 ObjectId 类 型 ,在 插入 文档 
的 时 候 , 如 果 用 户 不 设置 文档 的 _id ffi. MongoDB 会 自动 生成 一 个 唯一 的 ObjectId 值 进行 
填充 。 文 档 的 键 是 字符 串 类 型 ,而 值 除 字符 串 类 型 外 ,还 可 以 为 内 艇 文档 ` 数 组 .Date 等 类 
型 ,文档 内 容 具 体 如 下 : 


_id: ObjectId("5099803df3f4948bd2f98391"), 
name: ( first: "Alan", last: "Turing" }, 
birth: new Date('Jun 23, 1912"), 
death: new Date('Jun 07, 1954*), 
contribs: [ "Turing machine", "Turing test", "Turingery" ], 
views : NumberLong(1250000) 
) 


上 述 文档 中 ,字段 对 应 值 的 数据 类 型 ,具体 如 下 : 

* dd: 该 字段 的 值 为 ObjectId 类 型 。 

* name: 该 字段 的 值 是 由 first, last 字段 组 成 的 内 赃 文 档 。 

* birth 和 death; 这 两 个 字段 对 应 的 值 均 为 Date 类 型 。 

* contribs: 该 字段 的 值 为 字符 串 数组 类 型 。 

* views: 该 字段 的 值 为 NumberLong 类 型 。 

注意 : MongoDB 单个 文档 大 小 上 限 为 16MB, 单 个 文档 大 小 的 限制 有 助 于 确保 不 会 使 
用 过 多 的 内 存 (RAM) 或 在 传输 过 程 中 占用 过 多 的 带宽 。 为 了 存储 更 大 的 文档 , MongoDB 
提供 了 GridFS。 关 于 GridFS 的 更 多 信息 ,我 们 会 在 后 续 的 章节 中 进行 介绍 。 


2.3 MongoDB 数据 类 型 


MongoDB 支持 不 同 数据 类 型 作为 文档 中 字段 对 应 的 值 。 接 下 来 ,我 们 通过 一 张 表 来 
介绍 MongoDB 的 数据 类 型 ,具体 如 表 2-2 所 示 。 


表 2-2 MongoDB 数据 类 型 及 相关 说 明 


数据 类 型 相关 说 明 
Double 双 精 度 浮 点 型 ,用 于 存储 浮 点 值 
String 字符 串 .是 常用 的 数据 类 型 ,MongoDB 仅 支 持 UTF-8 编码 的 字符 串 
Object 对 象 类 型 ,存储 嵌入 式 文 档 


17 


miba 


NoSQL 数据 库 技术 与 应 用 
续 表 
数据 类 型 相关 说 明 
Array 数组 类 型 ,用 于 存储 多 个 值 
Binary data 二 进 制 数据 ,用 于 存储 二 进 制 数据 
Undefined 已 弃 用 
ObjectId 对 象 ID 类 型 ,用 于 存储 文档 的 ID 
Boolean 布尔 类 型 ,用 于 存储 布尔 (true/false) 值 
Date 日 期 类 型 ,以 UNIX 时 间 格 式 存储 标准 时 间 的 毫秒 数 , 不 存储 时 区 
Null 空 值 类 型 ,用 于 创建 空 值 


Regular Expression 


正则 表达 式 类 型 ,用 于 存储 正则 表达 式 


DBPointer 已 弃 用 

Code 代码 类 型 ,用 于 将 JavaScript 代码 存储 到 文档 中 

Symbol 已 弃 用 

Int32 整 型 ,用 于 存储 32 位 整 型 数值 

Timestamp I [a] ERZ 098 . JH F ic e 3C PUES itc oc Dn P FG PI a] 

Int64 整 型 ,用 于 存储 64 位 整 型 数值 

Decimall28 Decimal 类 型 ,用 于 记录 处 理 货币 数据 ,例如 财经 数据 、 税 率 数据 等 
Min key 将 一 个 值 与 BSON 元 素 的 最 低 值 相对 比 


Max key 将 一 个 值 与 BSON 元 素 的 最 高 值 相对 比 
AEE A aa A 


ER 2-2 中 ,我 们 列举 了 MongoDB 支持 的 所 有 数据 类 型 。 下 面 , 我 们 针对 特殊 的 数据 
类 型 进行 详细 介绍 。 


1. 数字 类 型 


MongoDB 支持 三 种 数字 类 型 ( 即 32 位 整数 (Int32) 、64 位 整数 (Int64) 和 64 位 浮 点 数 
(Double) 。 一 般 情况 下 ,我 们 通过 mongo shell 命令 行 交 互 界面 和 JavaScript 命令 两 种 方 
式 来 查看 和 操作 MongoDB, 通 过 这 两 种 方式 对 数值 进行 存储 /查看 操作 ,数值 被 默认 转 为 
64 位 浮 点 数 。 若 是 通过 Java 等 语言 存储 包含 整数 (32 位 和 64 位 整 型 ) 的 文档 至 MongoDB 
数据 库 中 ,该 整数 就 被 转换 为 浮 点 数 ,因此 我 们 尽量 不 要 在 Shell 下 覆盖 整个 文档 。 

由 于 32 位 的 整数 都 能 用 64 位 浮 点 数 精确 表示 ,所 以 通过 mongo shell 查看 文档 中 的 
32 位 整数 跟 64 位 浮 点 数 没什么 区 别 。 问 题 在 于 有 些 64 位 的 整数 并 不 能 精确 地 表示 为 64 
位 浮 点 数 , 因 此 ,在 mongo shell 查看 文档 中 的 64 位 整数 时 , 它 会 通过 封装 函数 
NumberLong() 显 示 。 若 是 通过 Java 语言 在 MongoDB 数据 库 的 bigdata 集合 中 插入 一 个 
文档 ,其 中 age64 键 的 值 为 Long 类 型 (64 位 整数 ) ,age32 键 的 值 为 Int 类 型 (32 位 整数 ) ,在 
mongo shell 中 查看 在 bigdata 集合 中 插入 的 这 个 文档 ,会 发 现 age64 键 的 值 与 age32 键 的 
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值 显示 不 同 , 具 体内 容 如 下 : 


1 
" id":0bjectld("5e042c88b2275b76df53b302"), 
"age32":32, 
"age64":NumberLong(64) 

} 


在 MongoDB 中 使 用 数字 类 型 时 ,需要 注意 精度 和 极限 值 的 问题 ,特别 是 金额 等 敏感 数 
字 需 要 使 用 128 位 的 Decimal 类 型 ,128 位 的 Decimal 类 型 不 会 因为 精度 丢失 而 造成 数值 变 
化 。 在 mongo shell 中 , Decimal 类 型 的 数值 也 会 被 当成 浮 点 数 类 型 ,但 是 可 通过 函数 
NumberDecimal("Number") 进 行 插入 /更 新 操作 。 

注意 : mongo shell(MongoDB 客户 端 Mongo 命令 行 交 互 界面 ) 是 MongoDB 的 交互 式 
JavaScript 接口 ,而 JavaScript 只 有 一 种 数字 类 型 (64 位 浮 点 数 ) ,如果 想 要 通过 mongo shell 
插入 /更 新 文档 内 的 整数 (32 位 /64 位 ) 类 型 数值 , 则 可 以 通过 函数 NumberInt C" Number") 和 
NumberLong("Number") 进 行 操 作 。 


2. 日 期 类 型 


在 mongo shell 中 创建 包含 日 期 类 型 数值 的 文档 ,类 似 于 在 JavaScript 中 创建 日 期 的 方 
式 , 我 们 需要 使 用 new Date ) 的 方式 。 在 MongoDB 中 ,无 论 是 通过 mongo shell 还 是 其 
他 编程 语言 存储 Date 对 象 ,MongoDB 都 会 自动 保存 成 ISODate 日 期 类 型 ,并 且 还 会 将 时 
间 存 储 为 标准 时 间 的 毫秒 数 。Date 类 型 文档 的 插入 及 查看 操作 如 下 : 


>db.bigdata.insert({"time":new Date("2019-02-12 12:12:12")}) 
>db.bigdata.find() 
{ 
" id":Objectld("5de915201bc9accea9a23154"), 
"time":ISODate("2019- 02- 12T04:12:122") 
) 


从 上 述 返 回 结果 中 可 以 看 出 ,默认 情况 下 MongoDB 中 存储 的 是 标准 的 时 间 (GMT)， 
中 国 时 间 是 东 八 区 (GMT 十 8) ,若是 我 们 将 当前 时 间 存 储 至 MongoDB 中 会 发 现 减少 了 8 
个 小 时 ,因此 要 注意 ,在 使 用 MongoDB 时 记得 时 区 对 日 期 类 型 造成 的 影响 。 不 过 有 些 编 程 
语言 已 对 此 进行 相关 处 理 , 例 如 Java 读 取 时 会 自动 加 上 时 区 8 小 时 。 


3. 数组 类 型 


MongoDB 数组 是 一 系列 元 素 的 集合 ,使 用 中 括号 [ ] 表 示 数 组 。 数 组 元 素 允 许 重复 且 
位 置 固 定 ,数组 中 可 以 存在 不 同 数据 类 型 的 元 素 。 在 关系 数据 库 中 ,数组 的 这 种 设计 实现 方 
式 是 不 常见 的 。 数 组 类 型 文档 的 结构 如 下 : 


{ 
" id":Objectld("5de91c6flbc9accea9a2315b"), 
"hobby": [ 


"swim", 


pio 
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4. Objectld 类 型 
ObjectId 是 一 个 12 字 节 BSON 类 型 ,由 一 组 十 六 进 制 的 24 位 字符 串 构 成 ,每 个 字 节 
存储 2 位 十 六 进 制 字符 ,总 共 使 用 了 12 字 节 的 存储 空间 ,具有 格式 如 图 2-2 所 示 。 
5de91c6f1bc9accea9a2315b 


Time Machine PID INC 
图 2-2 ObjectId 


从 图 2-2 中 可 以 看 出 ,ObjectId 由 4 部 分 组 成 ,具体 如 下 : 
* Time: ObjectId 的 前 4 个 字 节 表示 时 间 戳 , 即 前 8 位 字符 5de91c6f, 通 过 十 六 进 制 
转换 成 十 进 制 内 容 为 1575558255 ,这 个 数字 就 是 一 个 时 间 惟 格式 ,通过 时 间 戳 的 转 
换 , 可 变换 为 常见 的 时 间 格 式 。 
。 Machine: 在 Time 后 的 3 个 字 节 表示 所 在 主机 的 唯一 标识 符 , 即 Time 之 后 的 6 位 
字符 1bc9ac ,一般 是 机 器 主机 名 的 hash( 散 列 ) 值 ,这 样 就 确保 了 不 同 主机 生成 不 同 
的 机 器 hash 值 ,可 以 防止 在 分 布 式 操作 中 出 现 Objectld 相同 的 冲突 情况 ,这 就 是 在 
同一 台 机 器 生成 的 ObjectId 中 间 字 符 串 都 相同 的 原因 。 
* PID: 在 Machine 后 的 2 个 字 节 表示 进程 标识 符 , 即 Machine 后 的 4 位 字符 cea9 ,可 
以 确保 在 同一 台 机 器 不 同 的 MongoDB 进程 不 会 出 现 相同 的 ObjectId。 
*. INC; Æ PID 后 的 3 个 字 节 是 一 个 随机 值 , 即 PID 之 后 的 6 位 字符 a2315b。 前 面 介 
绍 的 9 个 字 节 是 为 了 保证 1 秒 时 间 内 不 同 机 器 不 同 进程 生成 的 ObjectId 不 冲突 ,这 
3 个 字 节 生成 的 随机 值 是 为 了 确保 1 秒 时 间 内 产生 的 ObjectId 不 发 生 冲 突 。 
MongoDB 中 存储 的 文档 必须 有 一 个 _id 键 ,该 键 的 值 可 以 是 任何 类 型 ,但 默认 是 
ObjectId 对 象 。 在 一 个 集合 中 ,每 个 文档 都 有 唯一 的 _id 值 ,以 确保 集合 中 的 文档 都 能 被 唯 
一 标识 。MongoDB 采用 ObjectId 类 型 的 值 ,而 不 是 采用 其 他 比较 常规 的 方法 (比如 自 增 主 
f) ,这 主要 原因 是 在 多 个 服务 器 上 同步 自 增 主 键 值 非常 耗费 时 间 。 


5. ior fi 


MongoDB 一 大 优势 在 于 能 够 在 一 条 文档 中 存储 对 象 类 型 的 数据 ,并 适当 增加 元 余 让 
数据 库 更 便于 使 用 。 文档 中 一 个 对 象 类 型 的 字段 在 MongoDB "P k R A A i x 
(Embedded) ,也 是 MongoDB 推荐 的 存储 格式 。 内 咀 文 档 类 型 的 文档 格式 (加 粗 部 分 ), 具 
体 如 下 : 


1 
" id" : ObjectId("5de92bdalbc9accea9a2315e"), 
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6. Code 类 型 


在 MongoDB 数据 库 的 文档 中 ,可 以 存储 一 些 JavaScript 方法 ,这 些 方法 可 以 重复 使 
用 ,Code 类 型 文档 的 格式 如 下 : 


2.4 MongoDB 的 使 用 规范 


通过 对 前 面 内 容 的 学 习 , 我 们 对 MongoDB 数据 库 有 了 初步 认识 ,为 了 后 续 在 操作 过 程 
中 更 加 合理 地 使 用 MongoDB, 接 下 来 ,我们 将 针对 MongoDB 中 数据 库 、 集 合 和 文档 的 使 用 
规范 进行 详细 介绍 。 


1. 数据 库 使 用 规范 


数据 库 通 过 名 字 标 识 。 关 于 数据 库 的 命名 需要 注意 以 下 几 点 : 

。 编码 格式 必须 为 UTF-8 字符 ; 

。 不 可 以 出 现 空 字符 串 , 即 ""; 

* 只 能 使 用 ASCH 码 表 中 的 字母 和 数字 ,禁止 使 用 除 下 面 线 (_) 以 外 的 特殊 字符 ; 

。 数据 库 名 称 区 分 大 小 写 ; 

。 数据 库 名 称 长 度 限制 为 64 个 字 节 ; 

。 数据 库 名 称 不 可 与 系统 保留 的 数据 库 名 称 相同 . 即 admin, local 和 config 数据 库 。 

上 述 我 们 从 设计 层面 介绍 了 MongoDB 数据 库 的 命名 规范 。 下 面 ,我 们 从 实际 开发 角 
度 提出 三 条 数据 库 命名 的 建议 ,具体 如 下 : 

。 数据 库 名 称 建议 全 部 小 写 ; 

。 建议 不 要 使 用 数字 开头 的 数据 库 名 称 ; 

。 建议 数据 库 命名 规则 为 db_xxxx, 即 见 名 知 意 的 名 称 。 
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2. 集合 使 用 规范 


集合 是 通过 名 字 来 标识 区 分 。 关 于 集合 的 命名 需要 注意 以 下 几 点 : 

t 编码 格式 必须 为 UTF-8 字符 ; 

。 不 可 以 出 现 空 字符 串 , 即 ""; 

。 集合 命名 中 不 可 含有 \0 字符 , 即 空 字符 ,这 个 字符 表示 集合 名 称 的 结尾 ; 

* 不 能 出 现 以 “system.” 开 头 的 集合 名 称 , 这 是 为 系统 集合 保留 的 前 级 ; 

。 集合 命名 不 可 包含 字符 $ ; 

。 集合 名 称 的 长 度 限 制 为 64 个 字 节 。 

上 面 ,我 们 从 设计 层面 介绍 了 MongoDB 集合 的 命名 规范 。 下 面 ,我 们 从 实际 开发 角度 
5 条 集合 命名 的 建议 ,具体 如 下 : 

* 建议 不 要 使 用 除 _( 下 面 线 ) 和 .( 点 ) 以 外 的 特殊 字符 ; 

。 建议 集合 名 称 全 部 小 写 ; 

。 建议 不 要 使 用 数字 开头 的 集合 名 称 ; 

。 为 了 避免 库 级 锁 带 来 的 问题 ,尽量 对 写 入 较 大 的 集合 使 用 * 单 库 单 集合 ”的 结构 ,对 
于 新 增 业 务 尽量 创建 新 库 ,而 不 是 在 现 有 库 中 创建 新 集合 

建议 集合 命名 规则 为 t_xxxx; 

使 用 "." 来 分 隔 不 同 命名 空间 的 子 集合 ,例如 一 个 博客 可 能 包含 两 个 子 集合 , 即 blog. 
posts 和 blog.authors ,而 blog 本 身 可 以 不 存在 。 


3. 文档 使 用 规范 


E 


文档 中 键 的 类 型 一 般 是 字符 串 类 型 , 键 可 以 使 用 任意 UTF-8 字符 。 关 于 文档 的 命名 需 
要 注意 以 下 几 点 : 

* 文档 中 的 键 不 能 含有 \0 字符 , 即 空 字符 ; 

。 文档 中 的 键 禁止 使 用 任何 除 下 画 线 _ 以 外 的 特殊 字符 ,并 且 开 头 不 建议 使 用 _; 

* 文档 中 的 键 建议 全 部 为 小 写 ; 

。 文档 中 的 键 不 建议 以 数字 开头 ; 

。 不 建议 自 定义 文档 中 _id 的 值 ; 

* 尽量 将 相似 类 型 的 文档 放 在 同一 个 集合 中 ,将 不 同类 型 的 文档 分 散在 不 同 的 集合 
中 ,这 样 可 以 提高 索引 的 利用 率 ; 

。 建议 不 要 存储 过 长 的 字符 串 , 如 果 这 个 字段 为 查询 条 件 , 那 么 确保 该 字段 的 值 不 超 
过 1KB, 因 为 MongoDB 索引 仅 支 持 1KB 以 内 的 字段 ; 

。 建议 车 业务 上 对 于 存放 数据 大 小 写 不 敏感 , 则 使 用 全 部 大 写 / 小 写 存放 (或 增加 一 个 
统一 大 小 写 的 辅助 字段 ); 

。 建议 尽量 不 要 使 用 数组 字段 作为 查询 条 件 ; 

。 同一 文档 中 ,不 可 以 存在 相同 名 称 的 键 。 
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2.5 ”本章 小 结 


通过 本 章 的 学 习 , 我 们 对 MongoDB 有 了 初步 的 认识 ,其 中 包括 MongoDB 的 体系 结构 、 
支持 的 数据 类 型 以 及 使 用 的 规范 和 建议 等 内 容 。 对 于 初次 接触 MongoDB 数据 库 的 读者 ， 


本 章 内 容 非 常 重要 ,为 后 续 深 入 学 习 MongoDB HEWA. 


2.6 课 后 习题 


一 、 填空 题 

1. 当前 NoSQL 数据 库 产品 中 最 热门 的 一 种 数据 库 是 

2. MongoDB 是 由 语言 编写 的 。 

3. MongoDB 是 一 个 ,模式 自由 的 文档 型 数据 库 。 

4. MongoDB 的 设计 采用 ,可 通过 分 片 将 数据 分 布 在 集群 机 器 中 。 
5. MongoDB 的 逻辑 结构 是 的 一 种 形式 。 

Z, 判断 题 


1. 在 MongoDB 中 ,数据 库存 储 着 集合 和 数据 表 。 

2. MongoDB 默认 提供 admin, local, config 以 及 test 数据 库 。 
3. 集合 就 是 MongoDB 的 一 组 文档 ,分 为 一 般 集 合 和 下 限 集合 。 
4. 文档 中 不 能 有 重复 的 键 ,每 个 文档 都 有 一 个 默认 的 _id 键 。 


5. MongoDB 支持 3 种 数字 类 型 (32 位 整数 (Int32)、64 位 整数 (Int64) 和 64 位 浮 点 


(Double) ) 。 


三 、 选 择 题 

1. 下 列 数据 库 中 ,( ) 不 是 MongoDB 默认 提供 的 。 
A. admin 数据 库 B. user 数据 库 
C. config 数据 库 D. test 数据 库 


Do 


. 下 列 说 法 中 ,关于 MongoDB 文档 说 法 正确 的 是 ( Js 
A. MongoDB 单个 文档 大 小 上 限 为 64MB 
B. 文档 的 值 只 可 以 是 字符 串 类 型 
C. 文档 中 可 以 有 重复 的 键 
D. 不 建议 自 定义 id 键 
. 下 列 选 项 中 ,属于 MongoDB 支持 的 数据 类 型 是 ( Rs 
A. String B. Code C. Enum D. Null 


、 简 答题 
简 述 MongoDB 数据 库 的 优势 。 


Co 


一 一 一 一 


eS 522. 


( 
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学 习 目 标 


。 掌握 MongoDB 的 部 署 

。 熟悉 数据 库 和 集合 操作 

。 掌握 文档 的 插入 更新、 删除 以 及 查询 操作 
。 掌握 使 用 Java 操作 MongoDB 

。 掌握 使 用 Python 操作 MongoDB 

* 掌握 使 用 Robo 3T 操作 MongoDB 


如 果 说 理论 知识 是 宝库 ,那么 开启 这 个 宝库 的 钥匙 是 实践 操作 。 如 果 想 要 深入 学 习 和 
掌握 MongoDB 数据 库 , 除 了 学 习 MongoDB 数据 库 的 理论 知识 之 外 ,还 应 掌握 MongoDB 
数据 库 的 实践 操作 。 本 章 将 针对 MongoDB 数据 库 操作 的 相关 知识 进行 详细 讲解 。 


3.1 MongoDB 部 署 


MongoDB 是 一 个 开源 、 跨 平台 的 数据 库 , 它 可 以 运行 在 Windows 和 Linux 等 多 个 平台 
上 ,为 我 们 提供 数据 库 服 务 。 在 不 同 的 操作 系统 平台 上 ,部 署 MongoDB 也 会 有 所 不 同 。 本 
节 ,我们 将 详细 讲解 MongoDB 数据 库 基于 Windows 平台 和 Linux 平 台 的 部 署 。 


3.1.1 基于 Windows 平台 


MongoDB 提供 了 可 用 于 32 位 系统 和 64 位 系统 的 预 编译 二 进 制 安装 包 , 其 中 ,32 位 的 
安装 包 不 允许 数据 库 文件 (累积 总 和 ) 超 过 2GB, 一 般 用 于 在 32 位 的 系统 /平台 上 部 署 测试 
和 开发 ,不 可 用 于 实际 生产 环境 ;而 64 位 的 安装 包 对 数据 库 文件 没有 限制 ,因此 受到 了 开发 
人 员 的 青睐 ,因此 ,本 书 选 择 使 用 64 位 的 MongoDB 安装 包 ( 注 意 : 选择 MongoDB 安装 包 
之 前 ,需要 确认 操作 系统 的 位 数 , 即 32 位 或 64 位 ,其 中 在 32 位 的 系统 上 只 能 安装 32 位 的 
MongoDB, 在 64 位 系统 上 既 可 以 安装 32 位 ,也 可 以 安装 64 位 的 MongoDB)。 基 于 
Windows 平 台 的 MongoDB 部 署 的 具体 步骤 如 下 。 


1. 下 载 MongoDB 安装 包 


通过 访问 MongoDB 官网 https://www. mongodb. com/download-center/community 
进入 MongoDB 下 载 页 面 ,如 图 3-1 所 示 。 
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4 Dowlosd Center Communi, X (A 
€ > Œ à mongodbcom/download-center/community Har ORNO: 
mongoDB. cou Software Leam Solutions Decs Coria suud Sining Ty Free 
Cibus Sever Tob 
Select the server you would like to run: 
MongoDB Community Server MongoDB Enterprise Server 
FEATURE RICH DEVELOPER READY. rures wn 
Version os 
* Rebase notes 
422 curent reease) v | wiraos 
* Changelog 
Package 
* Al verior Barra 
msi v Downoad 
iealaionireuctons 
hatpay/ /featdlmongodb org/wnaGymcngodh-win32x36_64.2012pbs-422.sgned mui ~ Download source (ga 
* Downicad source (ip) 


3-1 MongoDB 官网 下 载 页 面 


在 图 3-1 中 , 单 击 Version 处 的 下 拉 框 ,选择 需要 安装 的 版 本 ; 单 击 OS 处 的 下 拉 框 选择 
要 适 配 的 系统 或 平台 ; 单 击 Package 处 的 下 拉 框 ,选择 安装 包 的 打包 方式 。 关 于 MongoDB 
安装 包 版 本 、 适 配 系统 /平台 以 及 打包 方式 的 选择 ,具体 介绍 如 下 : 
。 Version 选择 : MongoDB 的 版 本 分 为 稳定 版 和 开发 版 ,其 中 ,稳定 版 是 经 过 充分 测 
试 的 版 本 ,具有 稳定 性 和 可 靠 性 ;而 开发 版 是 未 得 到 充分 测试 的 版 本 ,不 适合 初学 者 
使 用 。 本 书 选择 编写 教材 时 的 稳定 版 本 4.2.2。 这 里 需要 注意 ,稳定 版 和 开发 版 的 
区 别 在 于 版 本 号 (类 似 于 x.y.z) ,版 本 号 中 的 第 一 位 数字 是 主 版 本 号 ;第 二 位 数字 是 
用 于 区 分 是 稳定 版 还 是 开发 版 , 若 该 数字 为 偶数 , 则 说 明 该 版 本 为 稳定 版 ,反之 则 为 
开发 版 ;第 三 位 数字 为 修订 号 。 
。 OS 选择 : 由 于 我 们 是 基于 Windows 平台, 所 以 选择 “Windows x64 x64” 选 项 。 
* Package 选择 : 基于 Windows 平台 的 安装 包 打 包 方 式 有 两 种 ,分 别 是 MSI 和 ZIP. 
其 中 MSI 安装 包 需 要 进行 安装 ,而 ZIP 安装 包 只 需要 解压 安装 包 , 即 可 使 用 ,因此 
这 里 选择 ZIP 安装 包 。 
单 击 图 3-1 中 的 Download 按钮 ,下 载 选 择 的 MongoDB 安装 包 。 下 载 好 MongoDB 安 
装 包 , 如 图 3-2 所 示 。 


= | © 
OO- > HAN > mmm D) » MongoDB ， ~ [*+] [££ mongope P 
组 织 ” 。 包含 到 库 中 ” REY 。 新 建文 件 夫 =E- 0 0 
^ && i 修改 日 期 xm X^ o7 
LEO : 4 t 
BB mongodb-win32-x86 64-2012plus-42.2ip 2020-01-07 13:24 fE ZIP 309,635 KB 
& sias (C) 
ca x (D) 
ca xig (E) 


图 3-2 下载 好 的 MongoDB 安装 包 
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2. 解压 MongoDB 安装 包 


解压 图 3-2 中 的 MongoDB 安装 包 .解压 完 即 可 使 用 MongoDB, 读 者 也 可 以 自行 将 文件 
夹 重 命名 为 mongodb, 然 后 再 使 用 。 解 压 后 的 MongoDB, 具 体 如 图 3-3 所 示 。 


28 
Qi jo [Ji « Mo.. » mongodb-win32-x86 64-20. » ~ [6s] [ &&& mongodb-win32-x86.64-201.. P 
组 织 ”包含 到 库 中 Y — RE ”新 建文 件 夫 -© 
^ 名 称 y 修改 日 其 xm 大 小 
mmn d bin 2020-01-08 16:46 Zi 
ELS] E) LICENSE-Community.txt 201931209652 。 文本 文档 30 KB 
ca 本 地 磁盘 (DJ O MPL-2 2019-12-09 6:52 ”文件 17 KB 
ca 本 地 磁盘 (E) [O README 2019-12-09 652 。 文件 3 KB 
口 THIRD-PARTY-NOTICES 2019-12-09 6552 ”文件 74 KB 
L1 网 络 口 THIRD-PARTY-NOTICES.gotools 2019-12-09 6554 GOTOOLS 文件 180 KB 
Ce € €————Àam— 
64308 
d 


3-3 解压 后 的 MongoDB 


从 图 3-3 中 可 以 看 出 ,解压 后 的 MongoDB 包含 一 个 bin 文件 夹 , 该 文件 夹 中 存放 了 很 
多 MongoDB 程序 。 下 面 ,我 们 通过 表 3-1 来 介绍 一 下 MongoDB 程序 。 
表 3-1 MongoDB 程序 
E F 相关 说 明 
用 于 启动 MongoDB Shell 客户 端 (Mongo Shell 命令 行 交互 界面 ) ,在 客户 端 里 可 执 


行 相关 命令 对 数据 库 进行 增删 改 查 等 操作 

mongod.exe 用 于 启动 MongoDB 服务 

NEUE 用 于 启动 MongoDB 分 片 路 由 服务 ,可 以 处 理 来 自 应 用 层 的 查询 操作 并 且 识别 所 请 
di 求 的 数据 位 于 分 片 群集 的 位 置 


bsondump.exe 用 于 将 bson 格式 的 文件 转 储 为 json 格式 的 数据 
mongodump.exe | 用 于 备份 MongoDB 数据 库 中 的 数据 
mongoexporLexe | 用 于 导出 MongoDB 数据 库 中 的 数据 
mongofiles.exe 用 于 管理 GridFS 

mongoimportexe | 用 于 将 数据 导 和 人 MongoDB 数据 库 中 
mongorestore.exe | 用 于 MongoDB 的 数据 恢复 

mongostat.exe 用 于 检测 MongoDB 数据 库 的 状态 


mongotop.exe 用 于 监控 MongoDB 数据 库 中 数据 的 读 写 情况 


3. 启动 MongoDB 服务 
启动 MongoDB 服务 共有 两 种 不 同 的 方式 ,即使 用 命令 行 参数 的 方式 和 使 用 配置 文件 
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的 方式 ,这 两 种 启动 方式 的 介绍 如 下 。 

(1) 使 用 命令 行 参数 的 方式 启动 MongoDB 服务 。 

在 使 用 命令 行 参数 的 方式 启动 MongoDB 服务 之 前 ,需要 在 MongoDB 的 解压 文件 夹 下 
创建 一 个 文件 夹 , 用 于 存放 数据 库 文件 和 日 志文 件 ,因此 本 书 创建 了 data 文件 夹 , 如 图 3-4 
所 示 。 并 在 data 文件 夹 下 创建 db 和 log 子 文件 夹 , 其 中 db 文件 夹 用 于 存储 数据 库 文件 ， 
log 文件 夹 用 于 存储 日 志文 件 ( 便 于 在 日 志文 件 中 查看 MongoDB 相关 使 用 信息 ,不 然 关 闭 
命令 行 窗口 后 ,将 无 法 再 次 查看 MongoDB 的 日 志 ) ,如 图 3-5 Bros. 


Ee 
GO -T « Mo.. ^ mongodb-win32-x86.64-20.. + [6s] [ 4&8 mongodb-win32-x86.64-201.. P 
组 织 ” GAR — BASED. HEY FHR =- me 
E sm i 修改 日 其 um 大 小 
d bin 2020-01-08 16:46 Zi 
as | 点 data 2020-01-08 17:57 RA J 
日 LICENSE-Community.txt 2019-12-09 652 。 文本 文档 30 KB 
mn O Mpt-2 2019-12-09 652 ”文件 17 KB 
i bgs (C) [O README 2019-12-09 652 。 文件 3 KB 
T 口 THIRD-PARTY-NOTICES 2019-12-09 652 ”文件 74 KB 
a " [O THIRD-PARTY-NOTICES.gotools 2019-12-09 654 — GOTOOLS 文件 180 KB 
ca WHERE) g " 
data ”修改 日 期 : 2020-01-08 17:57 
p xx 


图 3-4 父 文件 夹 data 


全 日 -| Ui « mongodb-win32-x86.. » data » [5s] [ 2E data La 
组 织 ” 包含 到 库 中 > SEV xem eme 
^ && s 修改 日 期 类 型 大 小 
mode J db 2020-03-26 13:37 ”文件 到 
& sie (C) J logs 2020-03-26 13:588 XHA 
ca 本 地 磁盘 (D:) 
ca 本 地 磁盘 (E;) 
= 可 2 


图 3-5 子 文件 夹 db log 


在 MongoDB 的 bin 文件 夹 下 打开 命令 行 窗口 。 进 入 bin 文件 夹 ,在 目录 栏 中 输入 cmd 
提示 符 , 如 图 3-6 所 示 。 

在 图 3-6 中 的 目录 栏 处 , 按 Enter 键 ,在 当前 路 径 下 打开 命令 行 窗口 ,如 图 3-7 所 示 。 

在 图 3-7 中 ,执行 mongod 一 dbpath D:\MongoDB\mongodb-win32-x86_64-2012plus- 
4.2.2\data\db —logpath D:\MongoDB\mongodb-win32-x86_64-2012plus-4.2.2\data\logs\ 
mongodb.log 一 logappend 命令 ,启动 MongoDB 服务 .命令 行 窗 口 的 光标 会 一 直 闪 动 ,效果 
如 图 3-8 所 示 。 然 后 查看 日 志文 件 mongodb.log, 若 是 日 志文 件 中 出 现 MongoDB starting: 
则 说 明 MongoDB 服务 启动 成 功 ,反之 失败 。 日 志文 件 mongodb.log 的 内 容 ,如 图 3-9 
所 示 。 
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QO- [s -J> 


^ xm 5 
司库 | E bsondump.exe 
[È Install-Compass.ps1 E 
fokait + mongo.exe 
& semi: (C) DD mengo.pdb 
ca mH (D) || ^ * mongod.exe 
cca 本 地 磁盘 (E) LÌ mongod.pdb 
回 mongodump.exe 
[T^ E] mongoexport.exe 
回 mongofiles.exe - 
B m ] 
15 个 对 象 


图 3-6 输入 cmd 提示 符 


E 管理 员 : C\Windows\System32\cmd.exe 


Microsoft Windows [IR 6.1.7681] 
$ H cc) 20909 Microsoft Corporation 


D: NHongo DB nongodb-uin32-x 4-2012plus-4. 


Bill 管理 员 : CA Windows System32Xcmd.exe - mongod —dbpath DAMongoDBimongodb-win3. leE ) 


Microsoft Windows [I 6.1.7601] 
$ Kc) 2809 Microsoft Corporation 


D: e ongoDBNnongodb-vin 86_64-2812plu bin?mongod --dbpath D:*MongoDBwno 
Ingodb-uin32-x86. 64-2012p1us-4.2.2 data db 一 logpath D:*MongoDBwnongodb-vin32-x86| 
64-2012p1us-4.2.2 data Mlogs wongodb.log —logappend 


J mongodb.log - 记事 本 tlela 
| 文件 RRE EEV) WE) 


451+0800 I CONTROL [main] Automatically disabling TLS 1.0, to force-enable TLS 

abledProtocols 'none" 

454*0800 I CONTROL [initandlisten] 
Acn 


664 port=27017 
1808280K 
/Windows Server 2008 R2 


MongoDB starting 


CONTROL [initandli 
45440800 I CONTROL [initandlisten] 
H0800 I CONTROL [initandlisten] git version: 
946ac8dcdb49Teadf 

45440800 I CONTROL [initandlisten] allocator: tcmalloc 


6T17:05 
bff6adal59e192' 


. 45440800 I [initandlisten] modules: none 
45440800 I [initandlisten] build environment: 
45440800 I [ini tandlisten] distmod: 2012plus 
.45440800 I CONTROL [initandlisten] distarch: x86 64 
45440800 I CONTROL [initandlisten] target ar 


020-03-26717: 


.454*0800 I CONTROL [initandlisten] options: 


图 3-9 日 志文 件 mongodb.log 中 的 内 容 
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从 图 3-9 中 可 以 看 出 ,日 志文 件 mongodb.log 中 出 现 了 MongoDB starting, 因 此 说 明 我 
们 成 功 启动 了 MongoDB 服务 。 若 是 想 要 关闭 MongoDB 服务 ,只 需要 关闭 命令 行 窗口 
即 可 。 

(2) 使 用 配置 文件 的 方式 启动 MongoDB 服务 。 

在 使 用 配置 文件 的 方式 启动 MongoDB 服务 之 前 ,需要 在 MongoDB 的 解压 文件 夹 下 创 
建 一 个 文件 夹 conf, 用 于 存放 MongoDB 数据 库 的 配置 文件 ,并 在 该 文件 夹 下 创建 一 个 文件 
mongod.conf, 用 于 指定 数据 库 文件 的 存储 路 径 及 MongoDB 的 相关 配置 信息 ,文件 
mongod.conf 的 内 容 如 下 所 示 : 


storage: 
dbPath: D: \MongoDB\mongodb-win32-x86 64-2012plus-4.2.2\data\db 
systemLog: 
destination: file 
path: D: MongoDBWnongodb-win32-x86 64-2012plus-4.2.2M10gsWnongodb.log 
logAppend: true 


在 图 3-7 所 示 的 命令 行 窗口 中 ,执行 相关 命令 ,启动 MongoDB 服务 ,具体 命令 如 下 : 


mongod -f ..NconfWnongod.conf 


mongod --config ..NconfWnongod.conf 


执行 上 述 两 条 命令 中 的 任意 一 条 均 可 以 启动 MongoDB 服务 ,这 里 以 执行 第 一 条 命令 
进行 演示 ,启动 MongoDB 服务 ,命令 行 窗口 的 光标 会 一 直 闪 动 , 效 果 如 图 3-10 所 示 。 然 后 
查看 日 志文 件 mongodb.log ,若是 日 志文 件 中 出 现 MongoDB starting, 则 说 明 MongoDB 服 
务 启动 成 功 ,反之 失败 ,日 志文 件 mongodb.log 中 的 内 容 ,如 图 3-11 所 示 。 


国 管理 员 : CMWindows\System32\cemd.exe - mongod -f.\conAmongod.conf eile 


Microsoft Windows [hÆ 6.1.7681] 
jj <c) 2009 Microsoft Corporation 


D: \MongoDB nongodb-win32-x86_64-2812plu 


从 图 3-11 中 可 以 看 出 ,日 志文 件 mongodb.log 中 出 现 了 MongoDB starting, 因 此 说 明 
我 们 成 功 启 动 了 MongoDB 。 若 想 关 闭 MongoDB 服务 ,只 需要 关闭 命令 行 窗口 即 可 。 


3.1.2 基于 Linux 平 台 


> 


T 


Ñ 


Gi 


基于 Linux 平台 部 署 MongoDB 之 前 ,我们 需要 搭建 Linux 平台 ,关于 Linux ¥ f 
建 步骤 ,请 参考 本 书 提供 的 环境 配置 文档 (注意 : 为 了 便于 后 续 章节 的 操作 使 用 ,读者 需 
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fill mongodblog -记事 本 [E31 
XHA RRE ENO EEV SER) 


020-03-26T17:05:28. 451+0800 I CONTROL , [main] Automatically disabling TLS 1.0, to force-enable TLS ~ 
.0 specify —sslDisabledProtocols "none" 

2020-03-26117:05:28.45440800 I CONTROL [initandlisten] [i : pid-6664 port-27017 

dbpath-D: MlongoDB ynongodb-win32-x86 64-2012plus-4.2.2VdataVdb 64-bit host-CZBK-20180828QK 

2020-03-26117:05:28.454£0800 I CONTROL [initandlisten] targetllir0S: Windows T/Windows Server 2008 R2 

2020-03-26117:05:28.45440800 I CONTROL [initandlisten] db version v4.2.2 

2020-03-26117:05:28.454£0800 I CONTROL [initandlisten] git version: 

a0bbbff6adal59e192983d37946ac8dcdb497eadf 

2020-03-26T17:05:28. 454+0800 I CONTROL [initendlisten] allocator: tcmalloc 

2020-03-26T17:05:28. 454+0800 I CONTROL [initandlisten] modules: none 

2020-03-26117:05 CONTROL [initandlisten] build environment: 

2020-03-26T17:05 CONTROL [initandlisten] distmod: 2012plus 

2020-03-26T17 CONTROL [initandlisten] distarch: x86 64 

2020-03-26T17:0 CONTROL [initandlisten] ^ target arch: x86 64 

2020-03-26117:05: CONTROL [initandlisten] options: ( storage: { dbPath: “D:\MongoDB ~ 


3-11 日 志文 件 mongodb.log 中 的 内 容 


根据 环境 配置 文档 完成 虚拟 机 NoSQL. 1, NoSQL. 2、NoSQL 3 的 创建 和 配置 以 及 系统 目 
录 结 构 的 创建 操作 ) 。 本 章 ,我 们 将 在 虚拟 机 NoSQL_1( 即 IP 地 址 为 192.168.121.134 的 了 
机 ) 中 完成 MongoDB 数据 库 的 部 署 和 相关 操作 。 

由 于 root 用 户 拥有 的 权限 很 大 ,出 于 系统 安全 的 考虑 ,需要 新 建 一 个 普通 用 户 操作 
MongoDB 数据 库 ,因此 我 们 需要 新 建 一 个 用 户 user_mongo。 下 面 , 我 们 详细 介绍 如 何 新 建 
用 户 user_mongo。 


Hn 


1. 新 建 用 户 


打开 Linux 虚拟 机 并 通过 远程 工具 Secure CRT 连接 Linux 平台 ,执行 useradd user. 
mongo 命令 ,新 建 用 户 user_mongo; 再 执行 passwd user_mongo 命令 ,初始 化 新 用 户 user 
mongo 的 密码 ,具体 如 下 : 


[root@nosql01~ ]#useradd user mongo 

[root@nosql01~ ]#passwd user mongo 

Changing password for user user mongo. 

New password: 

BAD PASSWORD: The password is shorter than 8 characters 
Retype new password: 


passwd: all authentication tokens updated successfully. 


从 上 述 返回 结果 successfully 可 以 看 出 .所 有 的 身份 验证 令 牌 已 经 成 功 更 新 , 即 用 户 
user mongo 的 密码 初始 化 成 功 ,i 这 里 设置 的 赛 码 为 123456 (New password 和 Retype new 
password 处 均 填 密码 123456). 


2. 用 户 授权 
首先 执行 ls -l /etc/sudoers 命令 ,查看 文件 sudoers 的 操作 权限 ,具体 如 下 : 


[root@nosql0l1 -]£1s -1 /etc/sudoers 
-r--r-----. l root root 4188 Jul 7 2015 /etc/sudoers 


从 上 述 返 回 结果 可 以 看 出 ,文件 sudoers 的 操作 权限 为 只 读 ,不 可 进行 编辑 操作 。 因 此 
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需要 执行 chmod -v u 十 w /etc/sudoers 命令 ,将 文件 sudoers 的 权限 修改 为 可 编辑 ,然后 执 
ITEA ls -1 /etc/sudoers 命令 ,查看 文件 sudoers 的 权限 是 否 变 为 可 编辑 ,具体 如 下 : 


[rooténosq101 ~]#chmod -v u*w /etc/sudoers 


mode of '/etc/sudoers' changed from 0440 (r--r----— ) to 0640 (rw-r----- ) 
[rooténosq101 ~]#1s -1 /etc/sudoers 
A n o LE . 1 root root 4188 Jul 7 2015 /etc/sudoers 


从 上 述 返 回 结果 可 以 看 出 ,文件 sudoers 的 操作 权限 为 读 写 权 限 , 说 明 我 们 已 经 成 功 将 
文件 sudoers 的 操作 权限 修改 为 可 编辑 。 需 要 注意 ,为 了 系统 安全 编辑 完 文件 sudoers 后 ， 
必须 执行 chmod -v u-w /etc/sudoers 命令 ,将 该 文件 的 权限 改 为 默认 的 只 读 权 限 。 

执行 vi /etc/sudoers 命令 ,进入 sudoers 文件 中 ,添加 user mongo ALL=(ALL) ALL 
内 容 , 按 ESC 键 , 再 执行 :wdq! 命 令 , 保 存 并 退出 sudoers 文件 。sudoers 文件 添加 的 内 容 , 具 
体 如 图 3-12 所 示 。 


E 192.168.121.134 - SecureCRT - n x 
File Edit View Options Transfer Seit Tools Window. Hee 


ows e 'sys" group to run networking, software, 
s" Service management apps and mor 
# %SYS ALL = NETWORKING, SOFTWARE, "senices, STORAGE, DELEGATING, PROCESSES, LOCATE 


» DRIVERS 


$4 Allows people in group | Meat to run all commands 
*wheel ALL-(ALL) 


## Same thing without a password 
# Xwheel Atte CALO NOPASSWD: ALL 
$9 Allows members of the users group to mount and unmount the 


ssh2: AES-256-CTR. 16, 19 16 Rows, 83 Cols VT100 


图 3-12 将 user mongo 用 户 添加 到 sudoers 文件 中 


执行 su user_mongo 命令 ,从 root 用 户 切 换 到 user_mongo 用 户 ,效果 如 图 3-13 所 示 。 


Ii 192.168.121.134 - SecureCRT 一 口 x 
File Edit View Options Transfer Sat Tools Window Help 

Enter host <Alt+R> E24 
192168.121.134 x | 4» 
root! su user mongo ^ 


user Jondoenoeq) 01 root]$ 


Ready ssh2: AES-256-CTR. 2, 28 5Rows, 69 Cols VT100 
3-13 ”切换 到 用 户 user mongo 


从 图 3-13 中 可 以 看 出 ,我 们 成 功 切换 到 user_mongo 用 户 。 至 此 ,我 们 完成 了 用 户 user 


mongo 的 创建 以 及 使 用 管理 员 命令 的 授权 。 


-32-. NoSQL 数据 库 技术 与 应 用 
接 下 来 ,我 们 将 详细 讲解 如 何 基 于 Linux 平台 部 署 MongoDB, 具 体 部 署 步 又 如 下 。 


1. 下 载 MongoDB 安装 包 
通过 访问 MongoDB 官网 https://www. mongodb. com/download-center/community 


进入 MongoDB 下 载 页 面 , 如 图 3-14 所 示 。 
[Erg 


$ Download Center: Community X H 
€ > Œ 8 mongodb.com/download-center/community Hart 5 n0: 


Leam Solutions 。 Docs Comat Smh sign D 


mongoDB. ces Software 


Cloud Serer Tools 
Select the server you would ike tc run: 
MongoDB Community Server MongoDB Enterprise Server 
FEATURE RICH DEVELOPER READY. m ATURES PERFORMANCE GRA 
os 
* Resaee rotes 


Version 


422 (curent release) v | | Windows x4 x64 


Package 
* Al version binaries 
Ml ~ Downioed 
* nstalahon instructions 


* Download source (iz) 


* Chengslog 


Hitgs//fastdl mongodb.rg/win32/mongodo-winQ-x86 64-201:plus-42 2-signed msi 


+ Download source Gip) S 


图 3-14 MongoDB 官网 下 载 页 面 


在 图 3-14 中 , 单 击 Version 处 的 下 拉 框 ,选择 需要 安装 的 版 本 4.2.2; 单 击 OS 处 的 下 拉 


框 选择 要 适 配 的 系统 或 平台 .由 于 本 书 的 Linux 系统 是 CentOS 7 64 位 ,因此 选择 “RHEL 
7.0 Linux 64-bit x64” 选 项 ; 单 击 Package 处 的 下 拉 框 ,选择 安装 包 的 打包 方式 ,这 里 选择 
TGZ 方 式 。 单 击 Download 按钮 ,下 载 所 选择 的 MongoDB 安装 包 。 下 载 的 MongoDB 安装 


包 如 图 3-15 所 示 。 


GO Han > uaa oo» MongoDB » ~ [67] [££ Mongose P 
iin- Bar- 新建 文件 去 Ear e 
E xm 2 修改 日 其 xm 大 小 
iiss iJi mongodb-win32-x86_64-2012plus-4.2.2 2020-01-09 1438 文件 夫 
» d DERE C) Él mongodb-linux-x86_64-rhel70-4.2.2.tgz 2020-01-09 16:31 JE TGZ.. 113,243 KB 
[basen |] E mongodb-win32-x86_64-2012plus-4.2.2zip 2020-01-07 13:24 SFA ZIP.. 309,635 KB 
b ca HRS (E) 
, 


图 3-15 下 载 好 的 MongoDB 安装 包 


2. 解压 MongoDB 安装 包 
下 载 MongoDB 安装 包 后 ,使 用 SecureCRT 工具 将 MongoDB 安装 包 上 传 至 Linux 平 
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台 的 /opt/software 目录 下 ( 需 提 前 进入 /opt/software 目录 下 )。 首 先 执行 sudo rz 上 传 文 
件 命令 (可 以 通过 sudo yum install lrzsz -y 指令 安装 lrzsz 工具 ,实现 rz E f£ fl sz 下 载 命 
令 ) ,弹出 Select Files to Send using Zmodem 对 话 框 ,然后 选择 要 上 传 的 MongoDB 安装 
包 , 单 击 Add 按钮 ,将 其 添加 至 Files to send 文件 框 中 ,最 后 单 击 OK 按钮 ,将 MongoDB 安 
装 包 上 传 至 /opt/software 目录 下 ,如 图 3-16 所 示 。 


图 192.168.121.134 - SecureCRT 一 口 x 
File Edit View Options Transfer Script Tools Window Help 


á Enter host «Alt«R» E 


q 
rz waiting to receive. 
Starting zmodem transfer. Press Ctrl+C to cancel. 
Transferring mongodb-linux-x86. 64-rhel70-4.2.2.tgz... 
100% 129169 kB 64584 KB/sec 00:00:02 0 Errors 


[user -mongognosq1o1 software]$ 11 
total 129172 

-rw-r--r-- 1 root root 132269080 Mar 12 12:35 mongodb-linux-x86 64-rhel70-4.2.2.tgz | 
[user. mongo&nosq101 software]$ 


v 


Ready ssh2: AES-256-CTR. 10, 32 10 Rows, 85 Cols VT100 CAP NUM 


图 3-16 上 传 到 Linux 平台 的 MongoDB 安装 包 


在 图 3-16 中 ,首先 将 MongoDB 安装 包 的 用 户 和 用 户 组 权限 修改 为 user_mongo; 然 后 
将 /opt/servers/ 目 录 下 mongodb_demo 目录 的 用 户 和 用 户 组 权限 修改 为 user_mongo; 最 后 
解压 MongoDB 安装 包 至 /opt/servers/mongodb_demo 目录 ,具体 命令 如 下 : 


# 修 改 MongoDB 安装 包 的 用 户 和 用 户 组 权限 

$sudo chown user mongo:user mongo mongodb-linux-x86 64-rhel70-4.2.2.tgz 

# 修 改 mongodb demo 文件 夹 的 用 户 和 用 户 组 权限 

$sudo chown -R user mongo:user mongo /opt/servers/mongodb demo/ 

# 解 压 安装 包 

Star -zxvf mongodb-linux-x86 64-rhel70-4.2.2.tgz -C /opt/servers/mongodb demo/ 


执行 上 述 命令 ,将 MongoDB 安装 包 进行 解压 ,具体 如 图 3-17 所 示 。 


图 192.168.121.134 - SecureCRT 一 口 Es 
File Edit View Options Transfer Script Tools Window Help 


Enter host <Alt+R> 


$? 192168121134. x 4b 
g 


SUI software 

gor j6_64-rhe170-4. 2. 有 
mongodb-1inux-x86-64-rhe170-4. 2- 2/README 
|mongodb- 1 inux-x86 .64-rhe170-4. 2. 2/THIRD-PARTY-NOTICES 


mongodi n/mongo. 

mongodb-linux-x86_64-rhe170-4. 2. 2/bin/install_compass m 
[user_mongo@nosq101 software]$ m 
Ready Ssh2:AES-256-CTR 20, 32 20 Rows, 108 Cols VT10O CAP NUM = 


3-17 解压 MongoDB 安装 包 
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在 图 3-17 中 ,解压 完 MongoDB 安装 包 后 ,进入 到 /opt/servers/mongodb_demo 目录 ， 
如 果 觉 得 解压 后 的 文件 名 过 长 ,可 以 对 文件 进行 重 命名 ,具体 命令 如 下 : 


# 重 命名 为 mongodb 
Smv mongodb-linux-x86 64-rhel70-4.2.2 mongodb 


执行 上 述 命令 后 ,查看 修改 名 称 后 的 MongoDB 安装 目录 ,具体 如 图 3-18 所 示 。 


图 192.168.121.134 - SecureCRT 一 口 x 
— M sri Toole Mdoe i! 


user mong mv mong 
user. pongoenosqlot mondodb.i demo $n 
total 0 

drwxrwxr-x 3 user mongo user. mongo 129 Apr 26 06:52 [mongodb | 
[user mongoénosql01 mongodb. d: rd 人 


Ready Ssh2:AES-256-CTR — 5, 36 5 Rows, 82 cols — VT100 CAP NUM 
3-18 解压 并 重 命名 后 的 MongoDB 文件 夹 


3. 配置 MongoDB 


(1) 通常 情况 下 ,MongoDB 的 数据 文件 存储 在 data 目录 的 db 目录 下 ,日 志文 件 存储 
在 logs 目录 下 ,但 是 这 两 个 目录 在 解压 缩 方 式 安装 时 不 会 自动 创建 。 因 此 需要 在 mongodb 
目录 下 手动 创建 data 目录 和 logs 目录 ,并 在 data 目录 中 创建 db 目录 ,在 logs 目录 下 创建 
一 个 mongologs.log 日 志文 件 ,具体 命令 如 下 : 


# 创建 数据 文件 存放 目录 

mkdir -p standalone/data/db/ 
* 创建 日 志文 件 存放 目录 

mkdir standalone/logs/ 

# 创建 日 志文 件 


touch standalone/logs/mongologs.log 


执行 上 述 命令 后 ,在 /mongodb/standalone 目录 下 出 现 了 data 目录 和 logs 目录 。 进 入 
data 目录 下 ,可 以 看 到 数据 文件 存放 目录 db, 如 图 3-19 所 示 ; 进 入 logs 目录 下 ,可 以 看 到 日 
志文 件 mongologs.log, 具 体 如 图 3-20 所 示 。 

(2) 由 于 MongoDB 的 相关 服务 均 存 放 在 解压 后 /mongodb/bin 目录 下 ,若是 想 要 启动 
MongoDB 服务 ,必须 在 bin 目录 下 启动 ,因此 为 了 避免 启动 MongoDB 服务 之 前 进入 到 bin 
目录 下 ,我 们 需要 配置 用 户 环境 变量 , 即 执行 vi 一 /.bash_profile 命令 打开 并 编辑 .bash_ 
profile 文件 ,添加 如 下 内 容 : 


# 配 置 用 户 环境 变量 
export PATH= /opt/servers/mongodb demo/mongodb/bin:SPRTH 


添加 上 述 内 容 后 ,执行 :wgq 命令 ,保存 并 关闭 bash_profile 文件 ,然后 执行 source ~/.bash_ 
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192.168.121.134 - SecureCRT - 口 x 
Fle Edit View Options Transfer Script Tools Window Help 


sq mongodb. demo 
user mongoénosql0i mongodb demo]$ 11 
total 0 

drwxrwxr-x 3 user mongo user mongo 129 Apr 26 07:06 

drwxrwxr-x 3 user mongo user mongo 17 Apr 26 07:06 standalone 
fozar-aongosnosaiot mongodb demo]$ cd standalone/ 

user mong oenosq101 standalone]$ 11 

tota 

drwxrwxr-x 3 user.mongo user. mongo 15 Apr 26 07:06 data 

[uer anon dT standalone]$ cd data/ 

user mongoénosqlO1 data]$ 11 

total 0 

drwxrwxr-x 2 user mongo user mongo 6 Apr 26 07 :06 [db] 


[user mongoénosql01 data]$ E » 
Ready ssh2: AES-256-CTR 14, 28 14Rows,82Cols VT100 CAP NUM 
图 3-19 db 目录 
图 192.168.121.134 - SecureCRT 口 x 
File Edit View Options Transfer Script Tools Window Help 
= 3] 43 3€] Enter host <Alt+R> 23. d 1 


SqTÓ1 mong emo: 'ogs 
-.mongoénosql01 mongodb. demo]$ touch standalone/logs/mongologs. 10g 

user mongoénosql01 mongodb demo]$ cd standalone/ 

user--mongoénosqi01 standalone]$ 

tota 

drwxrwxr-x 3 user mongo user mongo 15 Apr 26 07:06 data 


drwxrwxr-x 2 user mongo user mongo 26 Apr 26 07:08 logs 
[0220 人 3 standalone]$ cd logs/ 
user-mongoénosq101 1ogs]$ 11 

tota 


-rw-rw-r-- 1 user mongo user mongo 0 Apr 26 07:08 [mongologs. 10g] 
[user mongoenosq101 "09515 i ngo ogs. 09 


ssh2: AES-256-CTR 12, 28 12 Rows, 82 Cols VT100 


Æ 3-20 mongologs.log 日 志文 件 


profile 命令 ,使 得 修改 后 的 .bash_profile 文件 生效 。 需 要 注意 的 是 每 次 切换 成 user_mongo 
用 户 后 ,都 需要 执行 source 一 /.bash_profile 命令 初始 化 用 户 环境 变量 。 


4. 启动 MongoDB 服务 


启动 MongoDB 服务 共有 两 种 不 同 的 方式 ,即使 用 命令 行 参 数 的 方式 和 使 用 配置 文件 
的 方式 ,这 两 种 启动 方式 的 介绍 如 下 : 
CD 使 用 命令 行 参数 的 方式 启动 MongoDB 服务 。 


Smongod --dbpath- /opt/servers/mongodb demo/standalone/data/db/ 
—-logpath- /opt/servers/mongodb demo/standalone/logs/mongologs.log 
--logappend -fork 


上 述 命令 中 ,mongod 是 MongDB 服务 ;--dbpath 参数 是 指定 数据 文件 存放 的 位 置 ; 
一 logpath 参数 是 指定 日 志文 件 的 存放 位 置 ;一 logappend 参数 指定 使 用 追加 的 方式 写 日 志 ; 


E 


-36- NoSQL 数据 库 技术 与 应 用 


-fork 参数 指定 以 守护 进程 的 方式 ( 即 后 台 ) 运 行 MongoDB 服务 。 
执行 上 述 命令 ,启动 MongoDB 服务 ,具体 效果 如 图 3-21 所 示 。 


图 192. 168.121.134 - SecureCRT = o x 
File Edit View Options Transfer Script Tools Window Help 
lac S3) d), Enter host <Alt+R> A, d^ - x 


人 uds 


ol t7 w 
156 T E ogappend fork. 
about to fork child process, waiting until server is ege or connections 
forked process: 9508 


child process Started [successfully parent exiting 
[user mongoénosql01 mongod 


ssh2: AES-256-CTR. 6, 36 6 Rows, 102 Cols VT100 


A 3-21 启动 MongoDB 服务 


在 图 3-21 中 ,出 现 了 successfully 单词 , 则 说 明 我 们 成 功 启动 了 MongoDB 服务 。 

(2) 使 用 配置 文件 的 方式 启动 MongoDB 服务 。 

在 使 用 配置 文件 的 方式 启动 MongoDB 服务 之 前 ,需要 在 mongodb 目录 下 创建 一 个 
conf 目录 ,用 于 存放 MongoDB 数据 库 的 配置 文件 ,并 在 该 目录 下 新 建文 件 mongod.conf, 用 
于 指定 MongoDB 服务 启动 所 需要 的 一 些 参 数 。 

创建 conf 目录 ,并 在 该 目录 下 新 建 mongod.conf 文件 ,具体 命令 如 下 : 


# 在 mongodb 目录 下 创建 conf 目录 
$mkdir conf/ 
+E conf 目录 下 新 建 mongod.conf 文 件 


Stouch mongod.conf 


执行 上 述 命 令 后 ,效果 如 图 3-22 所 示 。 


图 192.168.121.134 - SecureCRT 
Mp Dues ees iSe mes Window Help 


3 43 X) Enter host <Alt+R> 


*7192.168.121.134 x 


user. mong sq 
user mongoénosql01 mongodb $ cd conf/ 
user -nongoenosd10 c 1 

tota 

reden seien cones 19 touch mongod. conf 
user-mongoénosq101 conf 

tota 

-rw-rw-r-- 1 user mongo user mongo 0 Apr 26 07:25|mongod.conf j 
[user_mongoenosq101 conf JS zB Li 


Ready ssh2: AES-256-CTR 9, 28 9 Rows, 86 Cols VT100 CAP NUM . 
图 3-22 创建 conf 文件 夹 及 mongod.conf 文件 


在 图 3-22 中 . 即 mongodb 目录 下 执行 vi conf/mongod. conf 命令 ,打开 并 编辑 mongod. 
conf 文件 ,具体 添加 的 内 容 如 下 : 
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systemLog: 
*MongoDB 发 送 所 有 日 志 输 出 的 目标 指定 为 文件 
#The Path of the log file to which mongos should send all diagnostic 
*logging information 
destination: file 
#mongod 发 送 所 有 诊断 日 志 记 录 信 息 的 日 志文 件 的 路 径 
path: "/opt/servers/mongodb demo/standalone/logs/mongologs.log" 
# 当 mongod 重启 时 ,mongod 会 将 新 条 目 附加 到 现 有 日 志文 件 的 末尾 
logAppend: true 
storage: 
$ mongod 数据 文件 存储 的 目录 
dbPath: "/opt/servers/mongodb demo/standalone/data/db/" 
journal: 


# 启 用 或 禁用 持久 性 日 志 , 以 确保 数据 文件 保持 有 效 和 可 恢复 
enabled: true 
processManagement: 


# 启 用 在 后 台 运行 mongod 进程 的 守护 进程 模式 


fork: true 


编辑 上 述 内 容 需 要 注意 的 是 MongoDB 3.0 及 以 上 版 本 的 配置 文件 均 采 用 YAML 格 
式 , 其 结构 类 似 于 大 纲 的 缩 排 方 式 , 开 头 使 用 空格 作为 缩 进 ,数据 结构 为 Map 结构 , 即 
"Key: Value” EE“: ”之 后 有 Value, 则 后 面 必须 增加 一 个 空格 ;若是 Key 表示 层级 , 则 无 
须 增加 空格 。 按 照 层 级 结构 ,一 级 不 需要 空格 缩 进 ,二 级 缩 进 一 或 两 个 空格 ,三 级 缩 进 两 个 
或 四 个 空格 ,以 此 类 推 。 

上 述 内 容 添 加 后 , 执行 mongod -f /opt/servers/mongodb | demo/ mongodb/conf/ 
mongod.conf 命令 ,启动 MongoDB 服务 ,具体 效果 如 图 3-23 所 示 。 


图 192.168.121.134 - SecureCRT 一 口 X 


'user moi 'opt/ser ver s /moi 


SqTÓI moni mongod - | demo/mongodb/coi 
about to Pork child process , waiting until server is ready for connections. 
forked process: 9670 


child process started [successful] parent exiting 
[user. mongo&nosq101 d pucca: $ 


Ready ssh2: AES-256-CTR 5, 31 5Rows, 90 Cols VT100 


图 3-23 ”启动 MongoDB 服务 


在 图 3-23 中 ,出现 了 successfully 单词 , 则 说 明 我 们 成 功 启动 MongoDB 服务 。 若 是 想 
要 关闭 MongoDB 服务 , 则 先 执行 ps -ef | grep mongod 命令 ,查看 MongoDB 的 服务 进程 ; 
然后 执行 kill -2 9670 命令 ,结束 MongoDB 的 服务 进程 (MongoDB 的 服务 进程 每 次 都 不 
同 , 因 此 若是 想 要 结束 该 进程 , 则 必须 在 命令 中 提供 对 应 的 MongoDB 进程 号 ); 再 执行 ps - 
ef | grep mongod 命令 ,查看 MongoDB 服务 的 进程 是 否 存在 ,具体 如 图 3-24 所 示 。 

从 图 3-24 中 可 以 看 出 ,第 二 次 执行 ps -ef | grep mongod 命令 后 ,发 现 MongoDB 的 服 
务 进程 已 经 不 存在 了 ,因此 说 明 我 们 成 功 关闭 了 MongoDB 服务 。 
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图 192.168.121.134 - SecureCRT 一 口 x 
File Edit View Options Transfer Script Tools Meroe Help 


Enter host «AlteR» 5 


$ 192.168.121.134 x 4» 


User-mongonos: odb]$ ps -er T ore od 
IE CEN * 98:00:03 mongod -f /opt/servers/mongodb demo/mongodb/conf /mongod. conf ^ 
user mo« 9709 9331 0 07:40 prs/0 :00 grep --color=auto mongod 


fezsr-aongognosatot mongodb: i [a 9670” 

user-mongofnosqi01 mongodb]$ Hy «tfo! 9 p. mongod 

User mo- 9711 9331 0 0 pts/o grep --color-auto mongod ü 
[user mongoenosq101 mongodb] = 
Ready ssh2: AES-256-CTR 7. 31 7 Rows, 110 Cols VT100 CAP NUM . 


A 3-24 关闭 MongoDB 服务 


3.2 ”数据 库 操 作 


MongoDB 提供 了 一 个 交互 式 JavaScript 接口 , 即 mongo shell。mongo shell 主要 用 于 
操作 MongoDB, 包 括 数 据 库 .集合 以 及 文档 。 本 节 将 详细 讲解 如 何 使 用 mongo shell 对 
MongoDB 数据 库 进行 新 建 、 查 看 以 及 删除 操作 。 


3.2.1 新 建 数据 库 
创建 数据 库 ,具体 语法 如 下 : 


use DATABASE NAME 


述 语法 中 ,use 是 用 于 创建 和 切换 数据 库 的 命令 , 若 指定 的 数据 库 不 存在 , 则 创建 数据 
ww DATABASE NAME 是 新 建 数据 库 或 切换 数据 库 的 名 称 。 
下 面 ,我 们 来 创建 一 个 数据 库 articledb, 用 于 存放 文章 的 评论 数据 。 首先 ,启动 
MongoDB 服务 ,然后 执行 mongo 命令 ,进入 mongo shell 中 ,效果 如 图 3-25 所 示 。 


E 192.168.121.134 - SecureCRT - n x 
Fle Edit View Options Transfer Script Tools Window Help 


Enter host «Alt R» rd) 5 


voce x | n 


7017 /7compressor sdi sabledägssapi servi cenae-mongodb 
DC da Bodoa "2040-4423 207 0 Adc Ocras T 


[initandlisten] 

initandlisten] ** WARNING: Access control is not enabled for the database. 

jnitandlisten] ** Read and write access to data and configuration is unrestricted. 
initand]isten; 

initandlisten] ** wamNING: This server is bound to localhost. 

dnitandlisten: Remote systems will be unable to connect to this server. 
initandlisten: Start the server with --bind ip «address» to specify which I 
initand]isten; addresses 1t should serve responses from, or with -'bind Ip-all to 
initandlisten bind to all interfaces. If this behavior is desired. start 
initandlisten server with --bind ip 127.0.0.1 to disable this warning. 
initandlisten: 

initandlisten 

initandMsten] -* wanNING: /Sys/kernel/ms/transparent-hugepage/enabled is "always". 
initandlisten: suggest setting it to "never 

initandlisten: 

inivandisten] 1z waRNTAG: /sys/kernel/mw/transparent hugepage/defrag is "always". 
initandlisten] ** suggest setting it to 

inirand1isren 


Enable Wongoos "s free cloud-based monitoring service, which wiTl then receive and display 
metrics about your deployment (disk utilization, CPU, operation statistics, etc). 


[he monitoring data will be available on a wongons website with a unique UL accessible to you 
and anyone you share the URL with. Mongope may use this information to make pr 
1mprovements and to suggest MongoDB products and deployment options to you. 


To enable free monitoring, run the following command: db. enablerreewonitoringO 

To permanently disable this reminder, run the following command: db.disablerreevonitoringO 

> E 
Ready ah2: AES -256CTR — 37, 3 37 Rows, 135 Cols VTI0O CAP NUM 


H 3-25 mongo shell 界面 
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在 图 3-25 中 ,执行 use articledb 命令 ,创建 数据 库 articledb ,具体 如 下 : 


>use articledb 
switched to db articledb 


从 上 述 返 回 结果 可 以 看 出 ,数据库 articledb 已 经 创建 完成 。 
322 ”查看 数据 库 
查看 数据 库 , 分 为 查看 所 有 数据 库 和 查看 当前 数据 库 两 种 情况 ,具体 语法 如 下 : 


# 查 看 所 有 数据 库 
show dbs 

# 查 看 当前 数据 库 
db 


上 述 语法 中 ,show 是 用 于 查看 所 有 数据 库 的 名 称 和 存储 情况 的 命令 。dbs 是 databases 
的 简称 ;db 表示 当前 数据 库 对 象 。 

接 下 来 ,分 别 演示 执行 show dbs 和 db 命令 ,查看 所 有 数据 库 和 当前 数据 库 。 首 先 执 行 
show dbs 命令 ,查看 所 有 数据 库 , 具 体 如 下 : 


>show dbs 

admin  0.000GB 
config 0.000GB 
local  0.000GB 


从 上 述 返回 结果 可 以 看 出 , 列 出 的 数据 库 中 没有 出 现 数据 库 articledb, 这 是 由 于 使 用 
use 命令 创建 的 数据 库 articledb 存储 在 内 存 中 ,并 且 数 据 库 中 没有 任何 数据 ,因此 show dbs 
命令 是 查看 不 到 的 ,但 是 我 们 可 通过 执行 db 命令 来 查看 当前 数据 库 articledb。 需 要 注意 的 
是 ,MongoDB 中 默认 包含 数据 库 admin, config, local 及 test, 但 是 数据 库 test 存储 在 内 存 
中 ,也 无 任何 数据 ,因此 通过 执行 show dbs 命令 也 是 查看 不 到 的 。 

执行 db 命令 ,查看 当前 的 数据 库 ,具体 如 下 : 


>db 
articledb 


从 上 述 返 回 结果 可 以 看 出 ,当前 数据 库 为 articledb。 
3.2.3 删除 数据 库 
删除 数据 库 , 具 体 语法 如 下 


db.dropDatabase() 


上 述 语法 中 ,db 表示 当前 数据 库 对 象 ;dropDatabase() 是 用 于 删除 当前 数据 库 的 方法 。 
执行 db.dropDatabase() 命 令 ,删除 当前 数据 库 articledb .在 执行 删除 数据 库 命令 前 , 先 确保 
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已 经 切换 到 需要 删除 的 数据 库 下 :以免 发 生 误 删 ,具体 如 下 : 
>db 
articledb 


»db.dropDatabase() 
tok eom 


从 上 述 返回 结果 "ok" 可 以 看 出 ,数据 库 articledb 已 经 删除 完毕 。 需 要 注意 的 是 在 执行 
删除 数据 库 命令 前 , 先 确 保 已 经 切换 到 需要 删除 的 数据 库 下 ,以免 发 生 误 删 。 


3.3 ”集合 操作 


在 前 面 章节 中 ,我 们 使 用 mongo shell 对 数据 库 进 行 了 基本 的 操作 。 本 节 将 详细 讲解 
如 何 使 用 mongo shell 对 集合 进行 创建 和 删除 操作 。 
3.3.1 创建 集合 


创建 集合 有 两 种 方式 , 即 显 式 创建 集合 和 隐 式 创建 集合 ,具体 语法 如 下 : 


# 显 式 创建 集合 
db.createCollection(COLLECTION NAME, [OPTIONS]) 
# 隐 式 创建 集合 


db.COLLECTION NAME.insert (DOCUMENT) 


上 述 语法 中 , db 表示 当前 数据 库 对 象 (在 创建 集合 前 应 确保 处 于 对 应 数据 库 下 ); 
createCollection(COLLECTION_NAME. [OPTIONS]) 是 用 于 创建 集合 的 方法 ,该 方法 中 
包含 两 个 参数 ,参数 COLLECTION. NAME 表示 要 创建 的 集合 名 称 ; 参 数 OPTIONS 表示 
一 个 文档 ,用 于 指定 集合 的 配置 ,该 参数 为 可 选 参 数 。Insert(DOCUMENT) 是 用 于 往 集合 
中 插入 文档 的 方法 ,该 方法 包含 一 个 参数 DOCUMENT ,该 参数 表示 文档 。 

下 面 ,通过 执行 db. createCollection("myCollection") 命 令 , 演 示 如 何 显 式 创建 集合 
myCollection ,并 执行 show collections 命令 ,查看 是 否 成 功 创建 集合 ,具体 如 下 : 

»db.createCollection("myCollection") 

TIE adopt Df 


» show collections 


myCollection 


从 上 述 返 回 结果 可 以 看 出 ,集合 myCollection 创建 成 功 了 。 关 于 隐 式 创建 集合 ,这 里 
先 不 作 介绍 ,在 3.4 节 中 将 进行 详细 介绍 。 


332 ”删除 集合 
删除 集合 的 具体 语法 如 下 : 


db.COLLECTION NAME.drop() 
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上 述 语法 中 ,db 表示 当前 数据 库 对 象 ;COLLECTION_NAME 表示 当前 集合 对 象 ， 
drop() 是 用 于 删除 集合 的 方法 。 

下 面 ,通过 执行 db.myCollection. drop O 命令 演示 如 何 删除 集合 myCollection, 具体 
如 下 : 


»db.myCollection.drop() 
true 


从 上 述 返回 结果 true 可 以 看 出 ,集合 myCollection 已 被 成 功 删 除 。 


3.4 文档 的 插入 ,更 新 与 删除 操作 


在 前 面 节 中 ,我 们 使 用 mongo shell 对 数据 库 和 集合 进行 了 基本 的 操作 。 本 节 , 我 们 将 
详细 讲解 如 何 使 用 mongo shell 对 文档 进行 插入 、 更 新 以 及 删除 操作 。 


3.4.1 文档 插入 
文档 插入 可 以 分 为 单 文档 插入 和 多 文档 插入 ,具体 语法 如 下 ， 


# 单 文档 插 人 


db.COLLECTION NAME.insert (document) 


db.COLLECTION NAME.save (document) 
# 多 文档 插 人 


db.COLLECTION NAME.insertMany([documentl,document2, ...]) 


上 述 语法 中 ,对 象 .方法 以 及 参数 的 详细 介绍 如 下 : 

* db 表示 当前 数据 库 对 象 。 

。 COLLECTION_NAME 表示 当前 集合 对 象 。 

。 insert() 和 save() 是 用 于 插入 文档 的 方法 ,这 两 个 方法 均 包含 参数 document ,该 参 
数 表示 插入 一 个 文档 至 集合 中 。insert() 和 save() 方 法 的 区 别 在 于 , 若 使 用 insert() 
方法 插入 文档 , 且 集 合 中 已 存在 该 文档 , 则 会 报 E11000 duplicate key error 
collection 错误 ,反之 则 写 入 ; 若 使 用 save() 方 法 插入 文档 , 且 集 合 中 已 存在 该 文档 ， 
则 会 更 新 它 , 反 之 则 写 入 。 

* insertMany ( ) 是 用 于 插入 多 个 文档 的 方法 ,该 方法 包含 参数 [documentl， 
document2 ,...] ,该 参数 是 有 多 个 文档 组 成 的 数组 。 

下 面 , 演 示 执 行 插入 单 文档 命令 , 先 创 建 数据 库 articledb ,再 隐 式 创建 集合 comment. 

并 在 该 集合 中 插入 一 个 文档 ,具体 命令 如 下 : 


>use articledb 
switched to db articledb 
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»db.comment.insert( 
{"articleid":"100000", "content":" 今 天 天 气 真 好 ,阳光 明媚", "userid":"1001", 
"nickname":"Rose", "age":"20", "phone":"18807141995", "createdatetime":new Date(), 
"likenum":NumberInt (10) , "state":null} 
) 


WriteResult(( "nInserted" : 1 }) 


从 上 述 返 回 结 果 WriteResultC( "nInserted" : 1 }) 可 以 看 出 ,我 们 成 功 将 一 个 文档 插 
人 集合 comment 中 。 需 要 注意 的 是 , MongoDB 中 的 数字 默认 是 Double 类 型 的 ,车 要 存储 
整 型 , 则 需要 使 用 函数 “NumberlInt( 整 型 数字 )”, 否 则 查询 就 会 出 现 问题 ;车 集合 中 插入 的 
文档 没有 指定 _id, 则 会 自动 生成 主键 值 ObjectId, ObjectId 是 使 用 12 个 字 节 的 存储 空间 ， 
由 24 个 十 六 进 制 字符 组 成 的 字符 串 ( 每 个 字 节 可 以 存储 两 个 十 六 进 制 字符 ) , 若 某 个 键 没 有 
值 , 则 可 以 赋值 为 null 或 者 不 写 该 键 。 执 行 db.comment.find() 命 令 ,查看 集合 comment 中 
的 内 容 , 具 体 如 下 : 


»db.comment.find() 

( " id" : ObjectId("5e175913ddb10619b13a001f"), "articleid" : "100000", 

"content" : "今天 天 气 真 好 ,阳光 明媚 "，"userid" : "1001", "nickname" : "Rose", 

"age":"20", "phone":"18807141995","createdatetime":ISODate("2020-01-09T16:47:15.8972Z") , 


"likenum" : 10, "state" : null } 


从 上 述 返回 结果 可 以 看 出 ,集合 comment 中 包含 一 个 文档 ,该 文档 即 为 我 们 插入 的 
文档 。 
接着 ,演示 执行 插入 多 文档 命令 ,这 里 是 往 集 合 comment 中 插入 6 个 文档 ,具体 如 下 : 


»db.comment.insertMany([ 

(". id":"1","articleid":"100001", "content":" 清 展 , 我 们 不 该 把 时 间 浪 费 在 手机 上 ,健康 很 重要 ， 
喝 一 杯 温水 ,幸福 你 我 他 ."v "userid":"1002", "nickname":" 相 忘 于 江湖 ", "age":"25", 

"phone": ("homePhone": "82174911", "mobilePhone":"13065840128"), 

"createdatetime":new Date ("2020-01-02 09:08:15"), "likenum":NumberInt (1000), "state":"1"), 
(7 id":"2","articleid":"100001", "content": "我 夏天 空腹 喝 凉 开 水 ,冬天 喝 温 开水 ", 
"userid":"1003", "nickname": "f A ft f£", "age": "22", "Phone":"13442031624"， 
"createdatetime":new Date ("2020-01-02 10: "),"likenum":NumberInt(888),"state":"1"), 
(" id":"3","articleid":"100001", "content":" 夏 天 和 冬天 ,我 都 喝 凉 开水 ", "userid":"1004", 
"nickname": "杰克 船长 ", "age":"28", "phone":"13937163334", "createdatetime": 

new Date ("2020-01-02 14:56:09") , "Likenum":NumberInt (666), "state":null), 


"18","phone":"15813134403", "createdatetime": 

new Date ("2020-01-03 11:26:29"), "likenum":NumberInt (2000), "state":"1"), 

(7 id":"5","articleid":"100001", "content":" 研 究 表明 , 刚 烧 开 的 水 千 万 不 要 喝 , AJAR", 
"userid":"1005", "nickname": "F € Bi", "age":"18","phone":"15813134403", 
"createdatetime":new Date ("2020-01-03 15:10:37"), "likenum":NumberInt (3000), "state":"1"), 
(7 id":"6","articleid":"100001", "content":" 喝 水 是 生命 体 通过 口腔 摄 入 水 分 的 方式 ， 

人 体 每 天 通过 口腔 摄 入 的 液体 大 约 有 2 升 ", "userid":"1006", "nickname":" 受 德 华 ", "age":"30", 
"phone": ("homePhone": "62771541", "nobilePhone":"13262984142"), 

"createdatetime":new Date ("2020-01-03 15:10:37"), "likenum":NumberInt (3000), "state":"1") 
D 
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"acknowledged" : true, 
"insertedIds" : [ 

"3, 

ELE 

"3", 

An. 

"5", 

ng" 


从 上 述 返回 结果 ”*"acknowledged" : true” 可 以 看 出 ,我 们 成 功 将 6 个 文档 插入 集合 
comment 中 ,insertedIds 表示 插入 多 个 文档 的 对 应 _id。 执 行 db.comment.find() 命 令 ,查看 
Eft comment 中 的 内 容 , 具 体 如 下 : 


»db.comment.find() 

( " id" : ObjectId("5e162cca238207d6b5e1f585"), "articleid" : "100000", 
"content": "今天 天 气 真 好 ,阳光 明媚 ", "userid": "1001", "nickname": "Rose", "age":"20", 
"phone":"18807141995","createdatetime":ISODate("2020-01-08T19:26:02.5442"), 
"likenum":10,"state":null) 

(" id" :"1","articleid":"100001","content" : "清晨 ,我 们 不 该 把 时 间 浪 费 在 手机 上 ， 

健康 很 重要 , 喝 一 杯 温水 ,幸福 你 我 他 。", "userid":"1002", "nickname":" 相 忘 于 江湖 "， 
"age":"25", "phone": ("homePhone":"82174911", "mobilePhone":"13065840128"], 
"createdatetime":ISODate("2020-01-02T01:08:152Z") , "Likenum":1000, "state":"1") 

(" id":"2","articleid":"100001", "content": "我 夏天 空腹 喝 凉 开水 ,冬天 喝 温 开水 "， 
"userid":"1003", "nickname": "jt AEP", "age":"22", "phone":"13442031624", 
"createdatetime":ISODate("2020-01- 02T02:20:402Z") , "Likenum":888, "state":"1") 

(" id":"3", "articleid":"100001", "content":" 夏 天 和 冬天 ,我 都 喝 凉 开水 ", "userid": "1004", 
"nickname": "杰克 船长 ", "age": "28", "phone":"13937163334", "createdatetime": 
ISODate("2020-01-02T06:56:09Z") , "Likenum":666, "state":null] 

(" id":"4","articleid":"100001", "content":" 专 家 说 不 能 空腹 喝 冰 水 ,影响 健康 "，"userid" : "1005", 
"nickname": "罗密欧 ", "age": "18", "phone":"15813134403", "createdatetime": 
ISODate("2020-01-03T03:26:292")，"1ikenum": 2000, "state" : "1"} 

{"_id":"5", "articleid":"100001", "content":" 研 究 表明 , 刚 烧 开 的 水 千 万 不 要 喝 , AWAR", 
"userid":"1005", "nickname":" 罗 密 欧 ", "age":"18", "phone":"15813134403", 
"createdatetime":ISODate("2020-01- 03T07:10:372Z") , "Likenum" : 3000, "state" : "1" } 
(" id":"6","articleid":"100001", "content":" 喝 水 是 生命 体 通过 口腔 摄 入 水 分 的 方式 ， 

人 体 每 天 通过 口腔 摄 人 的 液体 大 约 有 2 升 ", "userid":"1006", "nickname": "REE", 
"age":"30", "phone": {"homePhone":"62771541", "mobilePhone": "13262984142" ), 
"createdatetime":ISODate("2020-01- 03T07:10:372Z") , "Likenum":3000, "state":"1") 


从 上 述 返回 结果 可 以 看 出 ,集合 comment 中 存在 7 个 文档 ,包含 第 一 次 插入 的 单个 文 
档 和 第 二 次 插入 的 6 个 文档 。 


3.4.2 文档 更 新 
更 新 文档 的 具体 语法 如 下 : 


db.COLLECTION NAME.update (criteria, objNew, upsert, multi) 
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上 述 语法 中 ,db 表示 当前 数据 库 对 象 ; COLLECTION_NAME 表示 当前 集合 对 象 ; 
update(criteria,objNew,upsert, multi) 是 用 于 更 新 文档 的 方法 ,该 方法 中 包含 4 个 参数 , 参 


数 的 介绍 如 下 : 
* criteria; 该 参数 表示 更 新 的 查询 条 件 ,类 似 于 sql 更 新 查询 中 where 后 面 的 条 件 , 主 
要 用 于 匹配 文档 。 


。 objNew: 该 参数 表示 更 新 的 对 象 和 一 些 更 新 的 操作 符 等 ,也 可 以 理解 为 sql 更 新 查 
询 中 set 后 面 的 条 件 。 

* upsert; 在 不 存在 更 新 文档 的 情况 下 ,该 参数 用 于 判断 是 否 插入 objNew, 若 为 true 
则 插入 ,默认 为 false, 不 插入 。 该 参数 为 可 选 参数 。 

* multi: 该 参数 默认 为 false, 只 更 新 找到 的 第 一 个 文档 ;车 这 个 参数 为 true, 则 将 按 条 
件 查 出 来 的 多 个 文档 都 更 新 。 该 参数 为 可 选 参数 。 

下 面 ,演示 执行 更 新 文档 的 命令 ,将 评论 者 爱德华 的 评论 内 容 content 改 为 “ 喝 水 增加 

了 尿 量 , 能 使 有 害 物质 及 时 排出 体内 ”, 具 体 命令 如 下 : 


>db .comment .update({"content":" 喝 水 是 生命 体 通 过 口腔 摄 入 水 分 的 方式 , 人 体 每 天 通过 口 
腔 摄 入 的 液体 大 约 有 2 升 "}, {$set:{"content":" 喝 水 增加 了 尿 量 ,能 使 有 害 物 质 及 时 排出 体内 "}}) 
WriteResult(( "nMatched" : 1, "nUpserted" : 0, "nModified" : 1 }) 


从 上 述 返 回 结果 可 以 看 出 ,匹配 到 一 个 文档 ,并 进行 更 新 操作 。 执 行 db.comment. find O 
命令 ,查看 集合 comment 中 的 内 容 是 否 被 更 新 ,具体 如 下 : 


»db.comment.find() 

( " id" : ObjectId("5e162cca238207d6b5elf585"), ...) 

dAmeldh Ui cR 
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{"_id":"6" "articleid":"100001", "content":" 喝 水 增加 了 尿 量 ,能 使 有 害 物 质 及 时 排出 体内 "， 
"userid":"1006", "nickname":" 爱 德 华 ", "age":"30", "phone": ("homePhone":"62771541", 
"mobilePhone": "13262984142" }, "createdatetime":ISODate("2020-01-03T07:10:372"), 
"likenum" : 3000, "state" : "1" } 


从 上 述 返回 结果 可 以 看 出 ,评论 者 爱德华 的 评论 内 容 content 已 经 成 功 更 新 为 “ 喝 水 增 
加 了 尿 量 , 能 使 有 害 物质 及 时 排出 体内 ”。 


34.3 文档 删除 
删除 文档 的 具体 语法 如 下 ， 


# 删 除 单个 文档 
db.COLLECTION NAME.remove( 
«query», 
{ 
justOne: «boolean», 


第 3 章 MongoDB 数据 库 操 作 


writeConcern: «document» 
} 

) 

WRAAK 


db.COLLECTION_NAME . remove ({}) 


上 述 语法 中 ,db 表示 当前 数据 库 对 象 ;COLLECTION_NAME 表示 当前 集合 对 象 ; 
remove(- query , (justOne; <boolean> . writeConcern; — document» }) Æ JH T MI E c 
档 的 方法 ,该 方法 中 包含 两 个 参数 ,参数 的 介绍 如 下 : 

* query ; 该 参数 为 可 选 参数 ,其 表示 删除 文档 的 条 件 。 

e {justOne: <boolean>, writeConcern; — document); 该 参数 为 可 选 参数 ,其 中 参数 

“justOne: 一 boolean 二 ”中 的 二 boolean 过 为 true 或 者 1 时 ,表示 查询 到 多 个 文档 时 只 删 
除 找到 的 第 一 个 文档 。 参 数 “writeConcern: — document " Ar Hh H1 R B5 2691 

下 面 , 演 示 执 行 删除 单个 文档 的 命令 ,将 评论 者 爱德华 的 评论 删除 ; 再 执行 db. 

comment.find() 命 令 ,查看 集合 comment 中 的 评论 者 爱德华 的 评论 是 否 被 删除 ,具体 如 下 : 


»db.comment.remove ( ("nickname": "爱德华 "}) 

writeResult(| "nRemoved" : 1 }) 

»db.comment.find() 

( " id" : ObjectId("5e162cca238207d6b5e1f585"), ... ,"nickname":"Rose",...] 
(" id" :"1",..., "nickname": HE THE", ...) 

(" id":"2",..., "nickname": BRA BE", ...) 

(". id":"3",..., "nickname": "杰克 船长 ",...} 

(" id":"4",... "nickname": "B $k", ...]) 

|" id":"5",..."nickname":"JP BEBE", ...]) 


从 上 述 返回 结果 可 以 看 出 ,集合 comment 中 已 经 没有 评论 者 爱德华 的 评论 了 ,说 明 已 
经 成 功 删除 评论 者 爱德华 的 评论 。 

下 面 ,演示 执行 删除 全 部 文档 的 命令 ,将 集合 comment 中 的 文档 全 部 删除 ;再 执行 db. 
comment.find() 命 令 , 查 看 集合 comment 中 的 文档 是 否 全 部 被 删除 ,具体 如 下 : 


»db.comment.remove(()) 
writeResult((| "nRemoved" : 6 ]) 
»db.comment.find() 


从 上 述 返 回 结果 “writeResult({ "nRemoved" : 6 })” 可 以 看 出 ,集合 comment 中 共 删 
BR 6 个 文档 ; 当 执行 查看 命令 后 ,发现 没有 任何 返回 值 , 则 说 明 已 经 成 功 将 集合 comment 中 
的 评论 全 部 删除 。 


3.5 ”文档 简单 查询 


文档 的 简单 查询 包括 查询 所 有 文档 、 按 条 件 查 询 文 档 以 及 按 特 定 类 型 查询 文档 等 多 种 
类 型 。 下 面 ,我 们 将 详细 讲解 查询 所 有 文档 、 按 条 件 查询 文档 以 及 按 特定 类 型 查询 文档 的 语 
法 格式 和 操作 步骤 。 
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3.5.1 查询 所 有 文档 


查询 所 有 文档 的 具体 语法 如 下 : 


# 查 询 所 有 文档 

db.COLLECTION NAME.find() 

# 查 询 所 有 文档 ,查询 返回 的 结果 以 易 读 的 方式 来 展示 
db.COLLECTION NAME.find().pretty() 


上 述 语法 中 ,db 表示 当前 数据 库 对 象 ;COLLECTION_NAME 表示 当前 集合 对 象 ;find() 


是 用 于 查询 所 有 文档 的 方法 ;pretty() 是 用 于 格式 化 查询 返回 的 结果 ,便于 阅读 。 


下 面 , 演 示 执 行 查询 所 有 文档 的 命令 ,查询 集合 comment 中 的 所 有 文档 。 由 于 在 3.4.3 


节 中 演示 了 如 何 删除 集合 comment 中 的 全 部 文档 ,导致 集合 comment 中 无 文档 ,因此 , 需 
要 先 执 行 插入 文档 命令 ,然后 再 执行 查询 所 有 文档 的 命令 ,具体 如 下 : 


»db.comment.insertMany([ 
(7 id":"1","articleid":"100001", "content": "WR, S2 ((] 7 i PEL RE Ie] RE EFL E, 健康 很 重要 ， 
喝 一 杯 温水 ,幸福 你 我 他 .", "userid":"1002", "nickname":" 相 忘 于 江湖 ", "age":"25", 
"phone": ("homePhone": "82174911", "mobilePhone":"13065840128"}, "createdatetime": 
new Date("2020-01-02 09:08:15"), "likenum":NumberInt (1000), "state":"1"), 
{"_id":"2", "articleid":"100001", "content":" 我 夏天 空腹 喝 凉 开 水 ,冬天 喝 温 开 水 "， 
"userid":"1003", "nickname": "ff A f f", "age":"22", "phone":"13442031624", 
"createdatetime":new Date ("2020-01-02 10:20:40"), "Likenum":NumberInt (888), "state":"1"), 
{"_id":"3", "articleid":"100001", "content":" 夏 天 和 冬天 ,我 都 喝 凉 开水 ", "userid":"1004", 
"nickname":" 杰 克 船 长 ", "age":"28", "phone":"13937163334", "createdatetime": 
new Date ("2020-01-02 14:56:09"), "likenum":NumberInt (666), "state":null}, 
{"_id":"4", "articleid":"100001", "content":" 专 家 说 不 能 空腹 喝 冰 水 ,影响 健康 ", "userid":"1005", 
"nickname":" 罗 密 欧 ", "age":"18", "phone":"15813134403", "createdatetime": 
new Date ("2020-01-03 11:26:29"), "likenum":NumberInt (2000), "state":"1"}, 
{"_id":"5", "articleid":"100001", "content":" 研 究 表明 , 刚 烧 开 的 水 千 万 不 要 喝 , AAK", 
"userid":"1005", "nickname": "3 £Et","age":"18","phone":"15813134403", 
"createdatetime":new Date ("2020-01-03 15:10:37"), "Likenum":NumberInt (3000), "state":"1"), 
(7 id":"6", "articleid":"100001", "content":" 喝 水 是 生命 体 通过 口腔 摄 入 水 分 的 方式 ， 
人 体 每 天 通过 口腔 摄 入 的 液体 大 约 有 2 升 ", "userid":"1006", "nickname": "ZW", "age":"30", 
"phone": ("homePhone": "62771541", "nobilePhone":"13262984142"], 
"createdatetime":new Date ("2020-01-03 15:10:37"), "Likenum":NumberInt (3000), "state":"1") 
Hi 
1 
"acknowledged" : true, 
"insertedIds" : [ 

"t, 

"2", 

"3", 

"a", 

"5", 


"gn 
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从 上 述 返回 结果 可 以 看 出 ,集合 comment 中 共有 6 个 文档 。 


3.5.2” 按 条 件 查 询 文 档 


按 条 件 查询 文档 ,主要 分 为 多 辑 操作 符 查 询 文档 和 比较 操作 符 查 询 文档 等 。 其 中 ,逻辑 
操作 符 包含 与 .或 等 操作 符 ; 比 较 操作 符 包含 大 于 、 小 于 、 大 于 等 于 、 小 于 等 于 、 不 等 于 ,包含 、 
不 包含 等 操作 符 。 按 条 件 查询 文档 的 具体 语法 如 下 : 


NoSQL 数据 库 技术 与 应 用 


上 述 语 法 中 ,db 表示 当前 数据 库 对 象 ;COLLECTION_NAME 表示 当前 集合 对 象 ;find 
() 是 用 于 查询 所 有 文档 的 方法 :pretty() 是 用 于 格式 化 查询 返回 的 结果 ,便于 阅读 :与 .或 、 
大 于 .小 于 .大 于 等 于 .小 于 等 于 ,不 等 于 .包含 .不 包含 等 操作 符 分 别 为 $and、$or、$ gt、 
$1t, $ gte, $1te, $ ne, $in, $ nin, 

下 面 ,演示 执行 “与 ?操作 符 查 询 文档 的 命令 ,查询 集合 comment 中 同时 满足 userid 为 
1005 和 nickname 为 “罗密欧 ”的 文档 ,具体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 ,集合 comment 中 有 两 个 同时 满足 userid 为 1005 和 
nickname 为 “罗密欧 ”的 文档 , 即 _id 分 别 为 4 和 5 的 文档 。 

下 面 ,演示 执行 “或 ?操作 符 查 询 文 档 的 命令 ,查询 集合 comment 中 userid 为 1002 或 
userid 为 1003 的 文档 ,具体 如 下 : 


第 3 章 MongoDB 数据 库 操 作 m4m 


从 上 述 返 回 结 果 可 以 看 出 ,集合 comment 中 userid 为 1002 或 1003 的 文档 都 被 查询 出 
ÆT. 

下 面 ,演示 执行 “大 于 ”操作 符 查 询 文档 的 命令 ,查询 集合 comment 中 userid KF 1005 
的 文档 ,具体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 ,集合 comment 中 userid 大 于 1005 的 文档 只 有 一 个 , 即 _id 
为 6 的 文档 。 

下 面 , 演 示 执 行 “ 小 于 ”操作 符 查 询 文档 的 命令 ,查询 集合 comment 中 userid 小 于 1004 
的 文档 ,具体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 ,集合 comment 中 userid 小 于 1004 的 文档 有 两 个 , 即 _id 分 
别 为 1 和 2 的 文档 。 

下 面 ,演示 执行 “大 于 等 于 ”操作 符 查 询 文档 的 命令 .查询 集合 comment 中 userid 大 于 
等 于 1005 的 文档 ,具体 如 下 : 
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从 上 述 返 回 结果 可 以 看 出 ,集合 comment 中 userid 大 于 等 于 1005 的 文档 有 3 个 , 即 
_id 分 别 为 4.5、6 的 文档 。 

下 面 ,演示 执行 “小 于 等 于 ”操作 符 查询 文档 的 命令 ,查询 集合 comment 中 userid 小 于 
等 于 1003 的 文档 ,具体 如 下 : 


从 上 述 返 回 结 果 可 以 看 出 ,集合 comment 中 userid 小 于 等 于 1003 的 文档 有 两 个 , 即 
id 分 别 为 1 和 2 的 文档 。 

下 面 ,演示 执行 “不 等 于 ”操作 符 查 询 文档 的 命令 ,查询 集合 comment 中 userid 不 等 于 
1005 的 文档 ,具体 如 下 : 
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从 上 述 返 回 结果 可 以 看 出 ,集合 comment 中 userid 不 等 于 1005 的 文档 有 4 个 , 即 _id 
分 别 为 1.2、3、6 的 文档 。 

下 面 , 演 示 执 行 “包含 "操作 符 查 询 文档 的 命令 ,查询 集合 comment 中 _id 包含 1、3 的 文 
档 , 具 体 如 下 : 


从 上 述 返 回 结 果 可 以 看 出 ,集合 comment 中 _id 为 1 或 3 的 文档 有 两 个 , 即 _id 分 别 为 
1 和 3 的 文档 。 

下 面 ,演示 执行 “不 包含 "操作 符 查 询 文档 的 命令 ,查询 集合 comment 中 _id 不 包含 1、 
3,5 的 文档 ,具体 如 下 : 
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从 上 述 返 回 结果 可 以 看 出 ,集合 comment 中 _id 不 包含 1.3 或 5 的 文档 有 3 个 , 即 _id 
4928 2.4.6 的 文档 。 


353 按 特定 类 型 查询 文档 


按 特 定 类 型 查询 文档 ,主要 分 为 Null 类 型 查询 .正则 表达 式 查询 . 嵌 套 文档 查询 和 数组 
查询 等 。 其 中 , 拭 套 文档 查询 包括 精确 匹配 查询 和 点 查询 。 按 特定 类 型 查询 文档 的 具体 语 


上 述 语法 中 ,db 表示 当前 数据 库 对 象 ;COLLECTION_NAME 表示 当前 集合 对 象 ;find 
() 是 用 于 查询 所 有 文档 的 方法 ;pretty() 用 于 格式 化 查询 返回 的 结果 ,便于 阅读 。 

下 面 ,演示 执行 按 “Null 类 型 "查询 文档 的 命令 ,查询 集合 comment 中 字段 state 为 null 
的 文档 ,具体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 ,集合 comment 中 字段 state 为 null 的 文档 只 有 一 个 , 即 _id 
为 3 的 文档 。 

下 面 ,演示 执行 按 * 正 则 表达 式 ? 查 询 文档 的 命令 ,查询 集合 comment 中 评论 内 容 
content 值 以 “专家 ”开头 的 文档 ,具体 如 下 : 
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从 上 述 返回 结果 可 以 看 出 ,集合 comment 中 评论 内 容 content 值 以 “专家 ?开头 的 文档 
只 有 一 个 , 即 id 为 4 的 文档 。 

下 面 , 演 示 嵌 套 文档 执行 “精确 ?查询 文档 的 命令 ,查询 集合 comment 中 包含 子 文档 
homePhone 和 mobilePhone 且 值 分 别 为 62771541 和 13262984142 的 文档 ,具体 如 下 : 


从 上 述 返回 结果 可 以 看 出 ,集合 comment 中 包含 子 文档 homePhone 和 mobilePhone 
且 值 分 别 为 62771541、13262984142 的 文档 只 有 一 个 , 即 _id 为 6 的 文档 。 

下 面 ,演示 檬 套 文档 执行 “点 ”查询 文档 的 命令 ,查询 集合 comment 中 包含 子 文档 
homePhone 且 值 为 82174911 的 文档 ,具体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 ,查询 集合 comment 中 包含 子 文档 homePhone 且 值 为 
82174911 的 文档 只 有 一 个 , 即 _id 为 1 的 文档 。 


36 ”聚合 操作 


MongDB 的 聚合 操作 包括 聚合 管道 操作 和 Map-Reduce 操作 等 。 其 中 ,聚合 管道 操作 
是 将 文档 在 一 个 管道 处 理 完毕 后 ,把 处 理 的 结果 传递 给 下 一 个 管道 进行 再 次 处 理 ; Map- 
Reduce 操作 是 将 集合 中 的 批量 文档 进行 分 解 处 理 , 然 后 将 处 理 后 的 各 个 结果 进行 合并 输 
出 。 本 节 将 针对 聚合 管道 操作 和 Map-Reduce 操作 进行 详细 讲解 。 
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3.6.1 合 管道 操作 


合 管道 是 使 用 不 同 的 管道 阶段 操作 器 进行 不 同 聚 合 操作 。 管 道 阶段 操作 器 也 称 为 管 
道 操作 符 , 管 道 操作 符 的 类 型 有 很 多 。 下 面 , 通 过 一 张 表 来 介绍 常见 管道 操作 符 , 具 体 如 
表 3-2 所 示 。 
表 3-2 常见 管道 操作 符 及 相关 说 明 
常见 管道 操作 符 相关 说 明 
$ group 将 集合 中 的 文档 进行 分 组 ,便于 后 续 统 计 结 果 
$ limit 用 于 限制 MongoDB 聚合 管道 返回 的 文档 数 
$ match 用 于 过 滤 数 据 ,只 输出 符合 条 件 的 文档 
$ sort 将 输入 的 文档 先进 行 排序 ,再 输出 
$ project 用 于 修改 输入 文档 的 结构 (增加 、 删 除 字段 等 ) 和 名 称 
$ skip 在 聚合 管道 中 跳 过 指定 数量 的 文档 ,并 返回 剩余 的 文档 


在 表 3-2 中 ,我 们 介绍 了 常见 管道 操作 符 及 其 作用 。 接 下 来 ,演示 通过 常见 管道 操作 符 


命令 来 查询 文档 ,具体 语法 如 下 : 


#5group 操作 符 

db.COLLECTION NAME .aggregate([{$group: {<keyl>:"$<key2>"}]) .pretty() 
#51imit 操作 符 

db.COLLECTION_NAME .aggregate({$limit: 整 型 数字 }) .pretty() 

#Smatch 操作 符 

db.COLLECTION NAME .aggregate([{Smatch: {<key>:<value>}}]) .pretty() 
Fssort 操作 符 , -1 表示 降序 , 1 表示 升序 

db.COLLECTION NAME.aggregate([($sort:(«key»:-1 IÈ 1))).pretty() 
*Sproject 操作 符 

db.COLLECTION NAME.aggregate([(Sproject: (Xkey» :«value»]]]) .pretty() 
#5skip 操作 符 

db.COLLECTION NAME .aggregate({Sskip: 整 型 数字 }) .pretty() 


上 述 语 法 中 ,db 表示 当前 数据 库 对 象 ; COLLECTION, NAME 表示 当前 集合 对 象 ; 
aggregate([{},{}...]) 是 用 于 聚合 查询 所 有 文档 的 方法 ,该 方法 中 的 数据 参数 表示 管道 操 


TE ,数组 中 的 每 个 文档 都 表示 一 种 管道 操作 ; pretty() 用 于 格式 化 查询 返 
阅读 。 


回 的 结果 ,便于 


下 面 ,演示 执行 *$ group 操作 符 ” 命 令 ,将 集合 comment 中 的 文档 按 userid 进行 分 组 ， 


RAT. 


»db.comment.aggregate([($group: (" id":"$userid"))]).pretty() 
T E + pe th 
( " id" : "1002" ) 
Te idat “Ipan y 
ed er LLE aal i 
( " id" : "1006" ) 
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从 上 述 返 回 结果 可 以 看 出 ,集合 comment 中 的 文档 按 userid 分 为 5 组, 即 1005 组 、 
1002 组 .1004 2H ,1003 组 以 及 1006 组 。 
下 面 ,演示 执行 *$ limit 操作 符 ” 命 令 ,指定 集合 comment 只 展示 3 个 文档 ,具体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 ,只 展示 集合 comment 中 前 3 个 文档 , 即 id 分 别 为 1.2、3 的 
文档 。 

下 面 , 演 示 执 行 *“$ match RE MS ,将 集合 comment 中 nickname 为 “罗密欧 ”的 文 
档 查 询 出 来 ,具体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 ,集合 comment 中 nickname 为 “罗密欧 ”的 文档 有 两 个 , 即 
id 分 别 为 4 和 5 的 文档 。 

下 面 ,演示 执行 *$ sort 操作 符 ” 命 令 ,将 集合 comment 中 文档 按 age 进行 降序 排序 , 具 
体 如 下 : 
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从 上 述 返 回 结果 可 以 看 出 ,集合 comment 中 的 文档 已 经 按 年 龄 age 的 大 小 进行 降序 排 
序 ,如 按照 升序 排序 ,可 以 将 一 1 换 为 1 。 

下 面 ,演示 执行 “ $ project 操作 符 ” 命 令 , 展 示 集 合 comment 中 的 文档 ,并 且 文 档 均 不 
包含 字段 id, 具 体 如 下 
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从 上 述 返 回 结 果 可 以 看 出 ,集合 comment 中 的 6 个 文档 都 展示 出 来 了 , 均 不 包括 字段 
Lid. 

下 面 ,演示 执行 *$ skip 操作 符 ” 命 令 , 跳 过 集合 comment P. id Jy 4 之 前 的 文档 (不 包 
含 4) ,只 展示 _id 为 4 之 后 的 文档 ,具体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 ,集合 comment fr id 为 5 和 6 的 文档 已 经 展示 出 来 了 。 

管道 阶段 操作 器 的 值 被 称 为 管道 表达 式 ,并且 每 个 管道 表达 式 都 是 一 个 文档 结构 ,由 字 
段 名称 、 字 段 值 和 管道 表达 式 组 成 。 由 于 管道 表达 式 的 种 类 和 数量 都 有 很 多 ,因此 这 里 通过 
一 张 表 来 介绍 常见 的 管道 表达 式 ,具体 如 表 3-3 所 示 。 
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表 3-3 常见 管道 表达 式 及 相关 说 明 


常见 管道 表达 式 相关 说 明 
$ sum 计算 总 和 
$ avg 计算 平均 值 
$ min 获取 集合 中 所 有 文档 对 应 值 的 最 小 值 
$ max 获取 集合 中 所 有 文档 对 应 值 的 最 大 值 
$ push 在 结果 文档 中 插入 值 到 一 个 数组 中 
$ first 获取 分 组 文档 中 的 第 一 个 文档 
$ last 获取 分 组 文档 中 的 最 后 一 个 文档 


在 表 3-3 中 ,我 们 介绍 了 常见 管道 表达 式 及 其 作用 。 接 下 来 ,演示 如 何 执行 常见 管道 表 
达 式 命令 来 查询 文档 ,具体 语法 如 下 : 


#5sum 表达 式 

db.COLLECTION_NAME .aggregate( [{ 管 道 操作 符 : («key1» :"$<key2>", <key3>: ($sum: $€ key3» )]] 
.pretty() 
#5$avg 表达 式 
db.COLLECTION_NAME .aggregate([{ 管 道 操作 符 :{<keyl>:"S<key2>",<key3>:{Savg:S<key3>}1}} 
.pretty() 

# Smin 表达 式 
db.COLLECTION_NAME .aggregate([{ 管 道 操 作 符 : {<keyl>:"$<key2>", <key3>: {Smin: $<key3>}}} 
.pretty() 

# Smax 表达 式 
db.COLLECTION_NAME .aggregate([{ 管 道 操作 符 :{<keyl> :"S<key2>",<key3> : ($max: $<key3>}}} 
.pretty() 

# Spush 表达 式 
db.COLLECTION _NRME .aggregate([{ 管 道 操作 符 : {<keyl>:"5<key2>", <key3>: {$push:$<key3>}}}]) 
.pretty() 
#5first 表达 式 
db.COLLECTION_NAME .aggregate([{ 管 道 操 作 符 : {<keyl>:"s<key2>", <key3>: {$first:$<key4>}}}]) 
.pretty() 
#51ast 表达 式 
db.COLLECTION NAME .aggregate([{ 管 道 操作 符 :{<keyl1> : "S«key2» ", «key3» : (S1ast:$«key5»)]]1) 
.pretty() 


上 述 语 法 中 ,db 表示 当前 数据 库 对 象 ; COLLECTION |. NAME 表示 当前 集合 对 象 ; 
aggregate( () ,{)...]) 是 用 于 聚合 查询 所 有 文档 的 方法 ,该 方法 中 的 数据 参数 表示 管道 操作 , 数 
组 中 的 每 个 文档 都 表示 一 种 管道 操作 ;pretty() 用 于 格式 化 查询 返回 的 结果 ,便于 阅读 。 

为 了 演示 管道 表达 式 操作 ,这 里 先 创建 一 个 集合 product, 并 插入 5 个 文档 ,具体 操作 如 下 : 


»db.createCollection("product") 
(rookt: ET 
>show collections 


comment 
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product 
>db.product.insertMany([ 
{"_id":"1", "name":"iPhone 8", "price":3000, "type":" 电 子 通信 "}, 
{"_id":"2", "name": "adidas neo", "price":700, "type": ”服装 "}， 
(" id":"3","name":"nike air max 90", "price":760, "type":" 服 装 "}， 
(" id":"4", "name": "HuaWei mate30", "price":5000, "type": "E Fiii"), 
(7. id":"5", "name": "vivo x27", "price":2000, "type":" Fil f"), 
n 
t 
"acknowledged" : true, 


"insertedIds" : [ 


) 


MERR [145 HE" "acknowledged" : true” 可 以 看 出 ,我 们 成 功 将 5 个 文档 插入 集合 


product 中 。 


下 面 ,演示 执行 “$ sum KAR’ MO ,将 集合 product 中 的 文档 按 类 型 type 进行 分 组 ， 


并 计算 各 个 分 组 的 价格 price 总 和 ,具体 如 下 : 


»db.product.aggregate([($group:(" id":"$type","price": ($sum:"$price")))]).pretty() 
(" id" : "JE", "price" : 1460] 
| "电子 通信 ",， "price" : 10000 ) 


从 上 述 返 回 结 果 可 以 看 出 ,集合 product 中 的 文档 按 类 型 type 进行 分 组 ,可 以 分 为 两 


组 ,分 别 是 服装 组 和 电子 通信 组 ,其 中 服装 组 的 总 价 为 1460, 电 子 通 信 组 的 总 价 为 10000。 


下 面 ,演示 执行 *“$ avg 表达 式 " 命 令 , 将 集合 product 中 的 文档 按 类 型 type 进行 分 组 ， 


并 计算 各 个 分 组 的 价格 price 平 均值 ,具体 如 下 : 


>db.product.aggregate([{$group:{"_id":"$type", "price": {$avg:"$price"}}}]) .Pretty() 
{ "id": "R", "price" : 730) 
{ " id" : "电子 通信 ",，"price" : 3333.3333333333335 } 


从 上 述 返 回 结 果 可 以 看 出 ,集合 product 中 的 文档 按 类 型 type 进行 分 组 ,可 以 分 为 两 


组 ,分 别 是 服装 组 和 电子 通信 组 ,其 中 服装 组 的 平均 价格 为 730, 电 子 通 信 组 的 平均 价格 为 
3333.3333333333335。 


下 面 ,演示 执行 *“$ min 表达 式 ” 命 令 ,将 集合 product 中 的 文档 按 类 型 type 进行 分 组 ， 


并 计算 各 个 分 组 中 价格 price 最 小 值 ,具体 如 下 : 


»db.product.aggregate([($group:(" id":"$type","price": {$min:"$price"}}}]) .Pretty() 
[" id": "RJ", "price" : 700 ) 
(" id": MTA, "price" : 2000 ) 
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从 上 述 返 回 结 果 可 以 看 出 ,集合 product 中 的 文档 按 类 型 type 进行 分 组 ,可 以 分 为 两 
组 ,分 别 是 服装 组 和 电子 通信 组 ,其 中 服装 组 中 价格 最 小 值 为 700, 电 子 通信 组 中 价格 最 小 
值 为 2000。 

下 面 ,演示 执行 *“$ max 表达 式 ” 命 令 , 将 集合 product 中 的 文档 按 类 型 type 进行 分 组 ， 
并 计算 各 个 分 组 中 价格 price 最 大 值 ,具体 如 下 : 


>db.product .aggregate([{$group:{"_id":"$type", "price": {$max:"$price"}}}]) .Pretty() 
{"_id" : "Jen, "price" : 760 } 
Edd "电子 通信 ",， "price" : 5000 } 


从 上 述 返 回 结果 可 以 看 出 ,集合 product 中 的 文档 按 类 型 type 进行 分 组 ,可 以 分 为 两 组 ， 
分 别 是 服装 组 和 电子 通信 组 ,其 中 服装 组 价格 最 大 值 为 760, 电 子 通信 组 价格 最 大 值 为 5000。 

下 面 ,演示 执行 *“$ push KAR” MA ,将 集合 product 中 的 文档 按 类 型 type 进行 分 组 ， 
并 将 各 个 分 组 的 产品 插入 到 一 个 数组 tags 中 ,具体 如 下 : 


»db.product.aggregate([($group: (" id":"$type","tags": (Spush:"$name")))]) .pretty() 
qid: "HUE", "tags" : [ "adidas neo", "nike air max 90" ] ] 
t 
"iat: "AFEN", 
tag sE 
"iPhone 8", 
"HuaWei mate30", 
"vivo x27" 


) 


从 上 述 返 回 结果 可 以 看 出 ,集合 product 中 的 文档 按 类 型 type 进行 分 组 ,可 以 分 为 两 
组 ,分 别 是 服装 组 和 电子 通信 组 ,其 中 服装 组 的 tags 中 有 两 个 产品 ,电子 通信 组 的 tags 中 有 
3 丰产 品 。 
下 面 , 演 示 执 行 “$ first 表达 式 ” 命 令 , 将 集合 product 中 的 文档 按 类 型 type 进行 分 组 ， 
并 获取 各 个 分 组 中 第 一 个 产品 ,具体 如 下 : 


»db.product.aggregate([(Sgroup:(" id":"$type", "product": ($first:"$name")])]).pretty() 
( " id" : "IR$", "product" : "adidas neo" } 
( " id" : "电子 通信 ", "product" : "iPhone 8" } 


从 上 述 返回 结果 可 以 看 出 ,集合 product 中 的 文档 按 类 型 type 进行 分 组 ,可 以 分 为 两 
组 ,分 别 是 服装 组 和 电子 通信 组 ,其 中 服装 组 中 第 一 个 产品 是 adidas neo, 电 子 通信 组 中 第 
一 个 产品 是 iPhone 8. 

下 面 ,演示 执行 $ last 表达 式 ” 命 令 , 将 集合 product 中 的 文档 按 类 型 type 进行 分 组 ， 
并 获取 各 个 分 组 中 最 后 一 个 产品 ,具体 如 下 : 


>db.product.aggregate([{$group:{"_id":"$type", "product": {$last:"$name"}}}]) .Pretty() 
{"_id" : "服装 ",，"product" : "nike air max 90" ) 
[" id": "电子 通信 "，"product"”: "vivo x27" } 
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从 上 述 返回 结果 可 以 看 出 :集合 product 中 的 文档 按 类 型 type 进行 分 组 ,可 以 分 为 两 
组 ,分 别 是 服装 组 和 电子 通信 组 ,其 中 服装 组 中 最 后 一 个 产品 是 nike air max 90 ,电子 通信 
组 中 最 后 一 个 产品 是 vivo x27。 


3.62 Map-Reduce 操作 


MongoDB 提供 Map-Reduce 来 进行 聚合 操作 。 通 常 ,Map-Reduce 操作 有 两 个 阶段 , 即 
Map 阶段 和 Reduce 阶段 ,其 中 Map 阶段 是 对 集合 中 的 每 个 输入 文档 进行 处 理 , 处 理 结束 
后 输出 一 个 或 多 个 结果 ,Reduce 阶段 是 将 Map 阶段 输出 的 一 个 或 多 个 结果 进行 合并 输出 。 

为 了 便于 理解 Map-Reduce 操作 ,这 里 我 们 通过 一 张 图 来 介绍 MongoDB 中 Map- 
Reduce 的 操作 流程 ,具体 如 图 3-26 所 示 。 


Collection 


db.orders.mapReduce( 
map 一 -> function() { emit( this.cust id, this.amount ); }, 


reduce 一 一 ~ function(key, values) ( return Array.sum( values ) }， 


query ——» query: ( status: "A" ), 
output ——» out: "order. totals" 


} 
) 
cust id: "A123", 
amount: 500, 
status: "A" í 
) 

amount: 500, 

status: "A" 
cust id: "A123", ) { 


amount: 250, 
status: "A" 


-id: "M123", 
(mg: C 500, 250 J} |=] value: 750 
) 


reduce 


cust id: "A123", 

|_| amount: 250, 

t query status: "A" 
cust id: "B212", ) 
amount: 200, 
status: "A" 


t 


value: 200 


amount: 200, 
status: "A" 


order totals 
cust id: "A123", 


amount: 300, 
status: "D" 


orders 


图 3-26 Map-Reduce 的 操作 流程 


从 图 3-26 中 可 以 看 出 ,Map-Reduce 操作 先 按 条 件 进 行 查询 操作 ,将 集合 中 满足 条 件 的 
文档 查询 出 来 ,然后 将 这 些 满足 条 件 的 文档 输入 到 Map 阶段 中 ,并 按 key 进行 分 组 ,将 key 
相同 的 文档 的 value 存放 到 一 个 数组 中 ,输出 到 Reduce 阶段 进行 聚合 处 理 。 

这 里 是 通过 Map-Reduce 操作 对 集合 orders 中 的 文档 进行 聚合 操作 , 即 先 将 集合 
orders 中 字段 status 为 A 的 文档 查询 出 来 .然后 按照 字段 cust_id 进行 分 组 ,将 字段 cust. id 
相同 的 amount 值 放 到 一 个 数组 中 ,然后 通过 执行 函数 sum 对 每 组 的 amount 值 进行 求 和 
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处 理 , 最 终结 果 输 出 到 集合 order totals 中 。 
Map-Reduce 操作 的 具体 语法 如 下 : 


上 述 语法 中 ,db 表示 当前 数据 库 对 象 ;COLLECTION_NAME 表示 当前 集合 对 象 ; 
mapReduce() 是 用 于 对 当前 集合 进行 聚合 操作 的 函数 ,该 函数 中 包含 两 个 函数 和 多 个 参数 ， 
具体 介绍 如 下 : 

* 两 个 函数 分 别 是 map 映射 函数 和 reduce 统计 函数 ,其 中 map 函数 调用 emit(key， 
value) 方 法 ,遍历 集合 中 的 所 有 文档 ,返回 key-value 键 值 对 ,并 将 key 和 value 输入 
到 reduce 函数 中 ;reduce 函数 主要 是 将 key-values ÆI key-value, 即 将 values 数组 
变 成 单一 的 值 value。 
参数 分 别 为 query、out、sort 以 及 limit, 其 中 query 参数 的 值 为 条 件 ,主要 用 于 筛选 
文档 ,满足 条 件 的 文档 才 会 调用 map 函数 ;out 参数 的 值 为 集合 ,用 于 存放 聚合 统计 
后 的 结果 ( 若 不 指定 集合 则 使 用 临时 集合 ,客户 端 断 开 后 自动 删除 ) ;sort 参数 为 可 
选项 ,一 般 结合 limit 参数 使 用 ,在 满足 条 件 的 文档 输入 map 函数 之 前 进行 排序 操 
TE s limit 参数 为 可 选项 ,用 于 限定 输入 map 函数 的 文档 数量 。 

下 面 执行 Map-Reduce 操作 ,将 集合 comment 中 的 文档 进行 聚合 操作 ,即将 字段 state 
为 1 的 文档 查询 出 来 ,然后 按 字 段 nickname 进行 分 组 ,最 后 计算 出 每 个 评论 者 的 评论 条 数 ， 
具体 如 下 : 
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"output" : 4 
^ 
ok 
} 


从 上 述 返 回 结果 可 以 看 出 ,集合 comment 中 共有 5 个 文档 符合 查询 条 件 , 在 map 函数 
中 生成 5 个 键 值 对 文档 ,然后 使 用 reduce 函数 将 相同 的 键 值 分 为 4 组 ,具体 参数 说 明 如 下 : 

* result; 存储 结果 集合 。 

* timeMillis; 执行 Map-Reduce 操作 所 花费 的 时 间 ,单位 为 毫秒 (ms) 。 

* input; 满足 筛选 条 件 被 输入 到 map 函数 的 文档 个 数 。 

* emit; 在 map 函数 中 emit() 方 法 被 调用 的 次 数 ,也 就 是 集合 中 满足 条 件 的 文档 

数量 。 

* output; 结果 集合 中 的 文档 个 数 。 

* ok; 判断 执行 Map-Reduce 操作 是 否 成 功 , 若 执行 成 功 则 显示 1, 反 之 用 err 表示 。 

下 面 ,执行 查询 所 有 文档 的 命令 ,查询 结果 集合 comment. total 中 的 结果 数据 ,具体 
WF: 


»db.comment total.find() 

t" id": "PAR", "value" : 1 } 

(" id" : "RWP", "value" : 1] 

{ "id" : " 相 忘 于 江湖 "，"value" : 1} 
("7 id": "罗密欧 ", "value" : 2 } 


从 上 述 返回 结果 可 以 看 出 ,结果 集合 comment_total 中 共有 4 个 评论 者 评论 文章 ,其 中 
_id 为 “伊人 殿 怪 ”的 评论 者 评论 文章 的 条 数 为 1;_id 为 “爱德华 ”的 评论 者 评论 文章 的 条 数 
为 1;_id 为 “ 相 忘 于 江湖 ”的 评论 者 评论 文章 的 条 数 为 1;_id 为 “罗密欧 ”的 评论 者 评论 文章 
的 条 数 为 2。 


3.7 使 用 索引 优化 查询 


在 应 用 系统 中 ,尤其 在 联机 事务 处 理 系 统 中 ,对 数据 查询 及 处 理 的 速度 已 成 为 衡量 应 用 
系统 成 败 的 标准 。 而 采用 索引 来 加 快 查询 数据 的 速度 也 成 为 广大 数据 库 用 户 所 接受 的 优化 
方法 。 在 良好 的 数据 库 设计 基础 上 ,有 效 地 使 用 索引 是 取得 高 性 能 的 基础 。 本 节 将 针对 
MongoDB 的 索引 操作 进行 详细 讲解 。 


3.7.1 索引 概述 


MongoDB 数据 库 提供 了 多 样 性 的 索引 支持 ,因此 可 以 提高 查询 集合 中 文档 的 效率 。 
若是 没有 索引 ,MongoDB 数据 库 必须 执行 全 集合 扫描 ( 即 扫描 集合 中 的 每 一 个 文档 ), 从 而 
筛选 出 与 查询 条 件 相 匹配 的 文档 。 这 种 扫描 全 集合 的 查询 ,其 效率 是 非常 低 的 ,尤其 是 在 处 
理 海 量 数据 时 ,执行 查询 操作 需要 花费 几 十 秒 甚至 几 分 钟 的 时 间 ,这 无 疑 对 网 站 的 性 能 是 非 
常 致命 的 。 若 是 执行 查询 操作 时 ,集合 中 的 文档 存在 适当 的 索引 ,MongoDB 就 可 以 使 用 该 
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索引 限制 必须 检查 的 文档 数量 。 

索引 是 一 种 特殊 的 数据 结构 , 即 采用 B-Tree 数据 结构 。 索 引 是 以 易于 遍历 读 取 的 形式 
存储 着 集合 中 文档 的 一 小 部 分 ,文档 的 一 小 部 分 指 文档 中 的 特定 字段 或 一 组 /多 组 字段 ,并 
且 这 些 字段 均 按照 字段 的 值 进 行 排序 。 索 引 项 的 排序 支持 有 效 的 等 值 匹配 和 基于 范围 的 查 
询 操作 。 此 外 ,MongoDB 还 可 以 使 用 索引 中 的 排序 返回 排序 的 结果 。 

MongoDB 的 索引 可 以 分 为 6 种 , 即 单字 段 索 引 、 复 合 索引 、 多 键 索引 、 地 理 空间 索引 \ 文 
本 索引 以 及 哈 希 索引 ,6 种 索引 的 详细 介绍 如 下 。 


1. 单字 段 索引 


MongoDB 支持 在 文档 的 单个 字段 上 创建 用 户 定义 的 升序 /降序 索引 ,因此 被 称 为 单字 
段 索 引 (Single Field Index) 。 默 认 情 况 下 ,MongoDB 中 所 有 集合 在 id 字段 上 都 有 一 个 索 
引 , 当 然 , 用 户 也 可 以 根据 自己 的 需求 添加 额外 索引 来 支持 重要 的 查询 和 操作 。 由 于 
MongoDB 可 以 从 任何 方向 遍历 索引 ,因此 对 于 单个 字段 索引 和 排序 操作 来 说 ,索引 项 的 排 
序 顺序 ( 即 升序 或 降序 ) 并 不 重要 。 

下 面 ,我 们 通过 一 张 图 来 介绍 单字 段 索 引 , 具 体 如 图 3-27 所 示 。 


collection 


min 18 30 45 75 max 


( score: 1 ) Index 
图 3-27 ”单字 段 索引 


从 图 3-27 中 可 以 看 出 ,在 集合 collection 中 的 字段 score 上 创建 了 一 个 索引 ,并 指定 其 
为 有 序 。 若 是 查询 字段 score 为 30 的 文档 , 则 可 以 先 在 索引 中 找到 score 为 30 的 索引 , 然 
后 再 从 真实 的 集合 collection 中 找到 字段 score 为 30 的 文档 。 因 此 ,在 单字 段 索引 中 ,无 论 
字段 score 为 1( 升 序 ) 或 者 一 1( 降 序 ) 对 文档 的 查询 效率 均 无 影响 。 


2. 复合 索引 


MongoDB 除了 支持 单字 段 索引 外 ,还 支持 复合 索引 。 所 谓 复合 索引 ,就 是 包含 多 个 字 
段 的 索引 ,一 个 复合 索引 最 多 可 以 包含 31 个 字段 。 需 要 注意 的 是 , 若 某 字 段 属 于 哈 希 索引 ， 
则 这 时 复合 索引 就 不 能 包括 该 字段 。 

下 面 ,我 们 通过 一 张 图 来 介绍 复合 索引 ,具体 如 图 3-28 所 示 。 

从 图 3-28 中 可 以 看 出 ,复合 索引 是 由 {userid: 1,score: 一 1) 组 成 的 ,因此 复合 索引 首 
先 按 字段 userid 进行 升序 排序 ,然后 在 每 个 字段 userid 的 值 内 ,按照 score 降序 排序 。 


第 3 章 MongoDB 数据 库 操作 


collection 


score: 30, 
userid: ..., 


) 


min "aal", "ca2", "ca2", "ca2", "nbl", "xyz", max 
45 75 55 30 30 90 
{ userid: 1, score: -1 } Index 
图 3-28 复合 索引 


3. 多 键 索引 


若 文档 中 的 字段 为 数组 类 型 , 则 每 个 字段 都 是 数组 中 的 一 个 元 素 ,MongoDB 将 会 为 数 
组 中 的 每 个 元 素 创建 索引 ,因此 被 称 为 多 键 索引 (Multikey Index)。 多 键 索引 允许 通过 匹 
配 数 组 的 一 个 或 多 个 元 素来 查询 包含 该 数组 的 文档 。 如 果 索 引 字 段 包 含 数组 值 , 则 
MongoDB 会 自动 确定 是 否 创建 多 键 索引 ,而 无 须 显 式 地 指定 创建 多 键 索引 。 

下 面 ,我 们 通过 一 张 图 来 介绍 多 键 索引 ,具体 如 图 3-29 Bron 。 


collection 


userid: "xyz", 
addr: 


[ 
(zip: "10036", ..), 
(zip: "94301", ..) 
l 


min "10036" "78610" "94301" max 


( "addr.zip": 1 ) Index 
图 3-29 多 键 索引 


从 图 3-29 中 可 以 看 出 ,集合 collection 中 文档 字段 addr 是 一 个 数组 类 型 ,数组 值 包含 
两 个 元 素 , 分 别 是 {zip: "10036",…} 和 {zip: "94301",…)。 因 此 ,MongoDB 会 自动 创建 多 
键 索引 , 即 {"addr.zip": 1). 
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4. 地 理 空 间 索 引 


为 了 支持 对 地 理 空间 坐标 数据 的 有 效 查 询 , MongoDB 提供 了 两 种 特殊 的 索引 , 即 
返回 结果 时 使 用 平面 几何 的 二 维 索 引 (2d 索引 ) 和 返回 结果 时 使 用 球面 几何 的 二 维 球 
面 索 引 (2dsphere 索引 )。 其 中 ,2d 索引 支持 在 欧 几 里 得 平面 上 的 计算 ,也 支持 计算 球 
面 上 的 距离 ;2dsphere 索引 支持 球面 上 几何 计算 的 查询 ,包含 查询 (在 一 个 指定 多 边 形 
内 的 位 置 进行 查询 )、 交 和 集 查询 (查询 指定 几何 相交 的 位 置 ) 和 临近 查询 (如 查询 离 另 一 
个 点 最 近 的 点 )。 我 们 可 以 通过 将 2d 索引 和 2dsphere 索引 相 结 合 , 从 而 进行 高 效 的 地 
理 空间 查询 。 


5. 文本 索引 


MongoDB 提供 了 一 种 文本 索引 类 型 ,支持 在 集合 中 搜索 字符 串 内 容 , 即 进行 文本 检索 
查询 。 文 本 索引 不 存储 特定 语言 的 停止 词 ,例如 the、a 以 及 or 等 词 ,而 是 将 集合 中 的 词 作 
为 词 干 ,只 存储 根 词 。 为 了 执行 文本 检索 查询 ,集合 上 必须 有 一 个 text 索引 。 一 个 集合 只 
能 拥有 一 个 文本 检索 索引 ,但 是 这 个 索引 可 以 覆盖 多 个 字段 。 


6. 哈 希 索引 


为 了 支持 基于 哈 希 分 片 键 进行 分 片 ,MongoDB 提供 了 哈 希 索引 类 型 。 哈 希 索 引 是 使 
用 哈 希 函数 来 计算 索引 字段 的 哈 希 值 , 若 该 索引 字段 的 哈 希 值 在 哈 希 索引 的 范围 内 , 则 分 布 
得 更 加 随机 。 需 要 注意 的 是 , 哈 希 索引 只 支持 等 值 匹 配 ,不 支持 基于 范围 的 查询 。 


372 索引 操作 
索引 操作 主要 包括 查看 索引 、 查 看 索引 大 小 .创建 索 引 以 及 删除 索引 ,具体 介绍 如 下 。 
1. 查看 索引 
查看 索引 的 语法 如 下 ， 


# 查 看 索引 
db.COLLECTION NAME.getIndexes() 


上 述 语法 中 ,db 表示 当前 数据 库 对 象 ;COLLECTION_NAME 表示 当前 集合 对 象 ; 
getIndexes() 是 用 于 查看 索引 的 方法 。 
下 面 ,执行 查询 集合 索引 的 命令 ,查询 集合 comment 中 的 索引 ,具体 如 下 : 


>db .comment .getIndexes () 
[ 
{ 
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"ns" : "articledb.comment" 


1 


从 上 述 返回 结果 可 以 看 出 ,集合 comment 中 存在 默认 索引 ,也 是 唯一 索引 , 即 字段 id. 
返回 结果 中 有 4 个 字段 ,分 别 是 v, key name 以 及 ns, 其 中 字段 v 表示 索引 引擎 的 版 本 号 ， 
值 为 2 表示 当前 MongoDB 索引 引擎 是 第 2 个 版 本 ;字段 key 表示 添加 索引 的 字段 , 即 默认 
在 主键 _id 上 添加 索引 , 值 为 1 表示 索引 是 按 升序 的 方式 排序 ;字段 name 表示 索引 的 名 称 ， 
也 就 是 字段 加 上 _, 即 _id_; 字 段 ns 表示 索引 存储 的 命名 空间 , 即 数据 库 articledb 的 集合 


comment 中 o 


2. 查看 索引 大 小 


# 查 看 索引 的 大 小 
db.COLLECTION NAME.totalIndexSize() 


上 述 语法 中 ,db 表示 当前 数据 库 对 象 ;COLLECTION_NAME 表示 当前 集合 对 象 ; 
totalIndexSize() 是 用 于 查看 索引 大 小 的 方法 。 
下 面 ,执行 查询 集合 索引 大 小 的 命令 ,查询 集合 comment 中 索引 的 大 小 ,具体 如 下 : 


»db.comment.totalIndexSize() 
36864 


从 上 述 返回 结果 可 以 看 出 ,集合 comment 中 索引 的 大 小 为 36864 个 字 节 。 
3. 创建 索引 

创建 索引 的 具体 语法 如 下 : 

db.COLLECTION NAME.createIndex(keys, options) 


上 述 语 法 中 ,db 表示 当前 数据 库 对 象 ;COLLECTION_NAME 表示 当前 集合 对 象 ; 
createIndex(keys,options) 是 用 于 创建 索引 的 方法 ,其 中 包含 两 个 参数 ,分 别 是 keys 和 
options, keys 和 options 参数 的 具体 介绍 如 下 : 

* keys: 该 参数 的 数据 类 型 为 文档 类 型 .是 包含 字段 和 值 的 文档 ,其 中 字段 是 索引 键 ， 

值 为 描述 该 字段 的 索引 类 型 。 若 指定 字段 为 升序 索引 , 则 指定 值 为 1, 反之 , 则 指定 
fH —1. 

* options: 该 参数 的 数据 类 型 为 文档 类 型 ,其 为 可 选项 ,包含 一 组 控制 索引 创建 的 选 
项 的 文档 。 常 见 的 选项 有 unique 和 name, 其 中 选项 unique 描述 建立 的 索引 是 否 唯 
一 , 若 值 为 true, 则 创建 唯一 索引 ,默认 值 为 false; 选 项 name 描述 所 创建 索引 的 名 
称 ,若是 未 指定 名 称 ,MongoDB 则 会 通过 连接 索引 的 字段 名 和 排序 顺序 生成 一 个 索 
引 名 称 。 

下 面 ,执行 创建 索引 的 命令 ,创建 单字 段 索 引 和 复合 索引 。 首 先是 在 集合 comment 中 
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的 文档 里 创建 单字 段 索引 , 即 在 文档 中 名 称 为 userid 的 字段 上 创建 索引 ,具体 如 下 : 


M EXER Fl 4 RE" "ok" :1” 可 以 看 出 ,索引 创建 成 功 。 
下 面 ,我 们 通过 执行 查看 索引 的 命令 ,查看 已 创建 的 单字 段 索 引 , 具 体 如 下 : 


从 上 述 返回 结果 可 以 看 出 ,集合 comment 中 的 文档 有 两 个 索引 , 即 索引 _id_ 和 索引 
userid_1 ,其 中 索引 _id 为 默认 的 主键 索引 ;索引 userid 1 是 创建 的 单字 段 索引 ,其 名 称 是 由 
“字段 十 -十 索引 类 型 (排序 的 方式 ) 组 成 。 

下 面 , 执 行 创建 复合 索引 的 命令 ,在 集合 comment 中 的 文档 里 创建 复合 索引 , 即 在 文档 
中 名 称 为 userid 和 nickname 的 字段 上 同时 创建 索引 ,具体 如 下 : 


从 上 述 返 回 结果 “"ok" :1” 可 以 看 出 ,复合 索引 创建 成 功 。 
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下 面 ,我 们 通过 执行 查看 索引 的 命令 ,查看 已 创建 的 复合 索引 .具体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 ,集合 comment 中 的 文档 有 3 个 索引 , 即 索 引 _id_、 索 引 
userid 1 以 及 索引 userid 1 nickname 一 1, 其 中 索引 _id_ 为 默认 的 主键 索引 ;索引 userid 1 
是 创建 的 单字 段 索引 :索引 userid 1. nickname — 1 是 创建 的 复合 索引 ,复合 索引 名 称 是 由 
索引 “userid_1 十 _ 十 nickname_ 一 1? 组 成 。 


4. 删除 索引 
删除 索引 ,具体 语法 如 下 : 


上 述 语 法 中 ,db 表示 当前 数据 库 对 象 ;COLLECTION_NAME 表示 当前 集合 对 象 ; 
dropIndex(index) 是 用 于 删除 单个 索引 的 方法 ,其 中 包含 一 个 参数 , 即 参 数 index, 其 数据 类 
型 为 字符 串 或 文档 ,用 于 指定 要 删除 的 索引 ;dropIndexes() 是 用 于 删除 所 有 索引 的 方法 。 
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下 面 ,执行 删除 单个 索引 的 命令 ,删除 集合 comment 中 文档 的 单个 索引 , 即 删除 文档 中 
名 称 为 userid 字段 上 的 索引 ,具体 如 下 : 


从 上 述 返 回 结果 {"nIndexesWas": 3,"ok": 1} 可 以 看 出 ,集合 comment 中 的 文档 有 3 
个 索引 ,并 成 功 删除 了 索引 userid 1. 
下 面 , 我 们 通过 执行 查看 索引 的 命令 ,查看 集合 comment 中 文档 的 索引 ,具体 如 下 : 


从 上 述 返回 结果 可 以 看 出 ,集合 comment 中 只 剩 下 两 个 索引 了 , 即 默认 的 主键 索引 和 
复合 索引 。 

下 面 , 执 行 删除 所 有 索引 的 命令 ,删除 集合 comment 中 文档 的 所 有 索引 。 为 了 便于 查 
看 效果 ,我 们 在 执行 删除 所 有 索引 命令 之 前 ,首先 执行 创建 单个 字段 索引 的 命令 ,然后 再 执 
行 删 除 所 有 索引 的 命令 ,具体 如 下 : 
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"msg" : "non- id indexes dropped for collection", 
a eT 
ih 


从 上 述 返回 结果 可 以 看 出 ,集合 comment 中 文档 的 所 有 索引 均 已 删除 ,这 里 要 注意 的 
ERII id 是 默认 的 ,无 法 删除 ,只 能 删除 非 字段 _id 的 索引 。 
下 面 ,我 们 通过 执行 查看 索引 的 命令 ,查看 集合 comment 中 文档 的 索引 ,具体 如 下 : 


>db .comment .getIndexes () 
[ 
t 
io, dade 
"key" : ( 
E C ATE 
» 


"name" : " id ", 


: "articledb.comment" 


] 


从 上 述 返 回 结 果 可 以 看 出 ,集合 comment 中 文档 只 剩 下 名 称 为 id_ 的 索引 了 。 
3.8 使 用 Java 操作 MongoDB 


3.8.1 搭建 Java 环境 


目前 Java 的 主流 开发 工具 主要 有 两 种 ,分 别 是 Eclipse 和 IDEA ,我 们 可 以 用 这 两 个 开 
发 工具 编写 Java 代码 来 操作 MongoDB。 由 于 IDEA 工具 可 以 自动 识别 代码 错误 和 进行 简 
单 的 修复 功能 , 且 IDEA 工具 内 置 了 很 多 优秀 的 插件 ,所 以 现在 大 多 数 的 Java 开发 程序 员 
都 会 选择 IDEA 作为 开发 Java 的 工具 。 由 于 我 们 要 在 IDEA 工具 中 创建 一 个 Maven 项 目 ， 
并 在 该 项 目 中 编写 Java 代码 来 操作 MongoDB, 因 此 我 们 要 下 载 并 安装 Java( 即 JDK)、 
Maven 以 及 IDEA, 这 些 软件 的 下 载 安装 步骤 具体 如 下 。 


1. JDK 的 下 载 安装 


(OD 访问 https://www. oracle. com/java/technologies/javase-downloads. html. 下载 
Windows 系统 下 的 JDK 安装 包 , 本 书 下 载 的 是 jdk 1.8 版 本 , 即 jdk-8u202-windows-x64.exe 
可 执行 程序 。( 注 意 : 本 书 会 提供 jdk-8u202-windows-x64.exe 可 执行 程序 ) 。 

(2) 双击 下 载 好 的 jdk-8u202-windows-x64. exe 安装 JDK ,并 将 JDK 的 安装 路 径 
(JAVA_HOME 和 JDK 安装 目录 下 的 bin 目录 PATH) 添 加 至 系统 环境 变量 中 。 

(3) 在 Windows 的 DOS 窗口 执行 java -version 命令 ,查看 JDK 是 否 安装 成 功 ,效果 如 
图 3-30 所 示 。 

从 图 3-30 中 可 以 看 出 ,JDK 的 版 本 号 为 1.8.0_202, 说 明 JDK 安装 成 功 了 。 


7 


72-  NoSQL 数据 库 技术 与 应 用 


Bil 管理 员 : C:\Windows\system32\cmd.exe - n x 


图 3-30 查看 JDK 


2. Maven 工具 的 下 载 安 装 


(D 访问 http://maven.apache.org/download.cgi, 下载 Windows 系统 下 的 Maven 安 
装 包 ,本 书 下 载 的 是 maven 3.6.3 版 本 , 即 apache-maven-3.6.3-bin.zip 安装 包 。( 注 意 : KË 
会 提供 apache-maven-3.6.3-bin.zip 安装 包 ) 。 

(2) 解压 下 载 好 的 Maven 安装 包 , 即 完成 Maven 的 安装 。 

(3) 打开 Maven 的 安装 路 径 下 , 即 \apache-maven-3.6.3\conf 文件 夹 ,修改 配置 文件 
加 本 地 仓库 路 径 和 远程 仓库 路 径 , 如 图 3-31 所 示 。 


settings. xml. 


«mirror» 
«id»alimavenc/id» 
«mirrorOf»central«/mirrorOf» 
«name»aliyunc/name» 
«url»http://maven.aliyun.com/nexus/content/groups/public/«/url» 
«/mirror» 


图 3-31 添加 Maven 仓库 


的 是 ,添加 本 地 仓库 路 径 之 前 ,需要 在 指定 目录 下 创建 一 个 文件 夹 
repository, 用 于 存放 Maven 项 目 所 需要 的 依赖 Jar 包 。 

(4) 将 Maven 的 安装 路 径 添 加 至 系统 环境 变量 (PATH) 中 ,这 里 添加 的 路 径 是 E:\ 
serversV windowsNapache-maven-3.6.3\bin。 然 后 在 Windows 的 DOS 窗口 执行 mvn - 
version 命令 ,查看 Maven 是 否 安 装配 置 成 功 ,效果 如 图 3-32 所 示 。 

从 图 3-32 中 可 以 看 出 ,Maven 的 版 本 号 为 3.6.3 ,说 明 Maven 安装 成 功 了 。 


3. IDEA 工具 的 下 载 安装 


(1) Æ https://www.jetbrains.com/idea/download/ # section windows 上 下 载 IDEA 
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国 管理 员 : CN\Windows\system32\cmd.exe 口 x 


图 3-32 查看 Maven 


工具 ,本 书 选择 的 是 社区 版 本 idealC-2019.3.3(IDEA. 只 是 编程 工具 ,读者 可 以 任意 选择 ,本 
书 会 提供 ideaIC-2019.3.3.exe) 。 

(2) 双击 下 载 好 的 idealC-2019.3.3.exe 进行 安装 。 若 是 最 终 显 示 的 效果 如 图 3-33 所 
示 , 则 说 明 IDEA 工具 安装 完成 。 


Wl welcome to Intell IDEA (Administrator) - x 


IntelliJ IDEA 
十 Create New Project 
1€ Import Project 


2s Open 


M Get from Version Control 


XX Configure» Get Help v 


图 3-33 打开 IDEA 工具 的 主 界面 


(3) 配置 IDEA TH, 在 图 3-33 中 , 单 击 Configure Settings — Build. Execution. 
Deployment-*Build Tools Maven.f Maven 添加 至 IDEA 工具 中 .具体 配置 如 图 3-34 所 
示 。 添 加 完毕 后 , 单 击 OKT. 

单 击 图 3-33 中 的 Configure- Structure for New Projects 一 Project, 将 jdk 添加 至 
IDEA 工具 中 ,具体 配置 如 图 3-35 所 示 。 添 加 完毕 后 . 单 击 OK 按钮 。 


3.8.2 ”基于 Java API 操作 MongoDB 


在 前 面 小 节 中 ,我 们 搭建 了 用 于 操作 MongoDB 的 Java 环境 。 下面 ,我 们 将 使 用 Java 
对 MongoDB 数据 库 中 的 集合 进行 创建 、 查 看、 删除 ,并 对 集合 中 的 文档 进行 插入 、 更 新 、 查 


E 
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Q 


> Editor 
Plugins 


? Version Control 


E Settings for New Projects 


Build, Execution, Deployment > Build Tools > Maven m For new projects 
[C work offline 
[use ph registry 

c 回 Execute goals recursively 


~ Build, Execution, Deployment [ Print exception stack traces 
v Build Tools = | [Always update snapshots 
EZ Update indices on project open 
Gradle gf Outputlevet | info. j v] 
Gant E Checksum policy: [No Giota Policy ~] 
> Compiler ^ — Multiproject build fail policy: | Default v 
Denuo Plugin update policy: [Den | onoredbyMavena+ 

Remote Jar Repositories E read count: SH 

Coverage a — - — 

Deployment Maven bome directory: Ejservers/windows/apache-maven-3.6.3 ~ El 

Gradle-Android Compiler = (Version: 3.6.3) 

Required Plugins. a (| User settings file: E\serversWwindows\apache-maven-3.6.3\conf\settingsxml a 名 | 回 Overide 
> Languages & Frameworks Local repository: E\servers\windows\repository 各 | Override 
> Tools 

Experimental 
o EE 9j Tr 


图 3-34 添加 Maven 至 IDEA 工具 中 


e> 


Project Settings 


Project 


Libraries 


Platform settings 
SDKs 
Global Libraries 


Problems 


E Project Structure for New Projects 


Project SDK: 
This SDK is default for all project modules. 
A module specific SDK can be configured for each of the modules as required. 


[FÆ 1.8 Gava version "1.8.0 202) — v]| New.. || Edit | 


Project language level: 
This language level is default for all project modules. 


A module specific language level can be configured for each of the modules as required. 
| 8- Lambdas, type annotations etc. ~] 


Project compiler output: 

This path is used to store all project compilation results. 

A directory corresponding to each module is created under this path. 

This directory contains two subdirectories: Production and Test for production code and test sources, respectively. 
A module specific compiler output path can be configured for each of the modules as required. 


图 3-35 添加 JDK 至 IDEA 工具 


询 以 及 删除 等 操作 。 
1. 创建 Maven 项 目 


打开 IDEA 工具 , 单 击 Create New ProjectMaven, 选 择 创 建 一 个 Maven 项 目 


如 图 3-36 所 示 。 


H 


E 


Ls 


在 图 3-36 中 , 单 击 Next 按钮 ,添加 Maven 项 目的 名 称 并 指定 项 目的 存储 路 径 , 具 体 如 


图 3-37 所 示 。 


在 图 3-37 rp. HE ds Finish 按钮 .完成 Maven 项 目的 创建 ,效果 如 图 3-38 所 示 。 
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Wl New Project xz 
is Project SDK: | B 1.8 (java version "1.8.0 202") ED ENS 
B Java FX 
(i Android C Create from archetype Add Archetype. 
k ron 


net.liftweb:lift-archetype-blank 
net.sf.maven-har:maven-archetype-har 
net.sf.maven-sar:maven-archetype-sar 
orq.apache.camel.archetypes:camel-archetype-activemq 


Ws Empty Project 


€ intel Platform Plugin 》 comatlassian.maven archetypesbamboo-plugin-archetype 
> com.atlassian.maven.archetypes:confluence-plugin-archetype 
ETENENEMD ^ 000 piugin archeype 
æ Gradle > com.rfc.maven.archetypes:;jpa-maven-archetype 
> de.akquinet.jbossccjbosscc-seam-archetype 
€ Groovy > netdatabinder:data-app 
> netliftweb:lift-archetype-basic 
K Kotlin » 
> 
> 
> 


3-36 选择 创建 Maven 项 目 


Bl New Project x 
Name: nosql_chapter03 
Location: E:\data\ldeaProjects\nosql_chapter03 © 


> Artifact Coordinates 


java 
Be resources 
v Mtest 
Ml java 
M pom.xml 
> lilli External Libraries 
Tọ Scratches and Consoles 


3-38 创建 好 的 Maven MA 
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2. 导入 依赖 


在 项 目 nosql. chapter03 中 配置 pom.xml 文件 ,也 就 是 引入 MongoDB 相关 的 依赖 和 单 
元 测试 的 依赖 ,pom.xml 文件 添加 的 内 容 具体 如 下 : 


<dependencies> 
<!-- 单 元 测试 依赖 --> 
<dependency> 
<groupId>junit</groupId> 
<artifactId>junit</artifactId> 
«version»4.12«/version» 
</dependency> 
<!--java 操作 mongoDB 的 驱动 依赖 --> 
<dependency> 
<groupId>org.mongodb< /groupId> 
<artifactId>mongo- java-driver</artifactId> 
<version>3.12.1</version> 
</dependency> 
</dependencies> 


当 添 加 完 相关 依赖 后 ,Maven 项 目的 相关 Jar 包 就 会 自动 下 载 ,成 功 引入 依赖 ,如 图 3-39 
所 示 。 


E Project v e 2%- 
v Bsnosql chapter03 E:\data\ldeaProjects\nosql_chapter03 
> Bidea 
v 有 src 
v B main 
Ml java 
Be resources 
v test 
Ml java 
M pom.xml 
> P < 1.8 > E\servers\windows\ava\jdk 
> Bi Maven: junit:junit:4.12 
> iii Maven: org.hamcrest:hamcrest-core:1.3 
> 


i Maven: org.mongodb:mongo-java-driver:3.12.1 
To Scratches and Consoles 


图 3-39 成 功 引入 的 Jar & 


3. 创建 资源 文件 ,指定 MongoDB 相关 参数 


在 项 目 nosql_ chapter03 的 H 3&/src/main/resources 下 创建 一 个 名 为 mongodb. 
properties 文件 ,该 文件 用 于 存储 连接 MongoDB 数据 库 所 需要 的 参数 ,具体 内 容 如 文件 3-1 
所 示 。 
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文件 3-1 mongodb.properties 


上 述 文件 包含 3 个 参数 ,分 别 是 host; port 以 及 dbname, 其 中 host 表示 主机 的 IP 地 
bs port 表示 端口 号 ; dbname 表示 要 操作 的 MongoDB 数据 库 名 称 。 注 意 : 由 于 资源 文件 
中 配置 了 主机 IP 和 端口 号 ,因此 我 们 需要 在 启动 MongoDB 服务 的 配置 文件 mongod. conf 
中 ,指定 主机 IP 和 端口 号 ,配置 文件 mongod.conf 中 添加 的 内 容 ( 加 粗 部 分 ) ,具体 如 下 


确保 完成 mongod.conf 文件 的 配置 后 需要 重启 MongoDB 服务 使 配置 生效 ,并 关闭 
Linux 系统 的 防火 墙 ,关闭 防火 墙 的 命令 为 systemctl stop firewalld.service( 此 命令 为 临时 
关闭 ,系统 重启 后 会 恢复 ) 。 


4. 创建 Java 工具 类 , 配置 MongoDB 的 相关 参数 


在 项 目 nosql_chapter03 目录 /src/main/java 下 创建 一 个 名 为 com.itcast. mongodb 包 ， 
并 在 该 包 下 创建 MongoUtils.java 文件 ,该 文件 用 于 编写 Java 连接 MongoDB 数据 库 的 工 
有 具 类 ,具体 代码 如 文件 3-2 所 示 。 
文件 3-2 MongoUtils.java 
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上 述 代码 中 ,第 1114 行 代码 声明 连接 MongoDB 所 需要 的 成 员 对 象 和 成 员 变 量 ; 第 
17 一 39 行 代 码 创 建 一 个 静态 代码 块 ,用 于 初始 化 工具 类 中 的 静态 变量 ,该 静态 代码 块 在 类 
加 载 过 程 中 的 初始 化 阶段 执行 ,并 且 只 执行 一 次 ;第 41 一 46 行 代码 定义 一 个 
getMongoClient() 方 法 ,用 于 获取 MongoDB 数据 库 的 连接 对 象 , 即 MongoClient; 第 49 一 52 
行 代码 定义 一 个 getMongoConn() 方 法 ,用 于 连接 指定 的 MongoDB 数据 库 。 


5. 创建 Java 测试 类 ,连接 MongoDB 数据 库 


在 项 目 nosql_chapter03 目录 /src/test/java 下 创建 一 个 名 为 TestMongo.java 的 文件 ， 
该 文件 用 于 编写 Java 连接 并 操作 MongoDB 数据 库 的 测试 类 ,具体 代码 如 文件 3-3 所 示 。 
文件 3-3 TestMongo.java 


1 import com.itcast.mongodb.MongoUtils; 

2 import com.mongodb.client.*; 

3 import com.mongodb.client.model.Filters; 

4 import org.bson.Document; 

5 import org.junit.Test; 

6 import java.util.Date; 

7 public class TestMongo ( 

8 private static MongoDatabase mongoDatabase; 
9 public static void main(String[] args) ( 

10 mongoDatabase-MongoUtils.getMongoConn(); 
11 ) 

I2 } 


上 述 代 码 中 ,第 8 行 代 码 声 明 MongoDatabase 成 员 对 象 ; 第 9,10 行 代码 是 一 个 mainO 
方法 , 即 主 程序 人 口 ,通过 MongoUtils 类 对 象 调 用 getMongoConn() 方 法 ,实现 连接 指定 的 
MongoDB 数据 库 。 


6. 查看 数据 库 


在 TestMongo.java 中 ,定义 一 个 getDBs() 方 法 ,用 于 查看 MongoDB 中 的 所 有 数据 库 ， 
具体 代码 如 下 : 


1 @Test 

2 public void getDBs() { 

3 MongoClient mongoClient -MongoUtils.getMongoClient(); 

4 MongoIterable«String»databaseNames -mongoClient.listDatabaseNames(); 
5 for (String databaseName : databaseNames) { 

6 System.out.println(databaseName); 

7 ü 

8 p 


上 述 代码 中 ,第 3 行 代码 通过 MongoUtils 类 对 象 调用 getMongoClient () 方 法 ,获取 
MongoDB 的 连接 对 象 , 即 MongoClient; 第 4 行 代码 通过 MongoDB 的 连接 对 象 调用 
listDatabaseNames( ) 方法 ,将 MongoDB 中 包含 的 所 有 数据 库 名 称 放 入 到 迭代 器 
databaseNames 中 ;第 5,6 行 代码 通过 一 个 高 级 for 循环 .遍历 迭代 器 对 象 databaseNames 
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并 打印 输出 MongoDB 中 的 所 有 数据 库 名 称 。 
运行 getDBs() 方 法 ,然后 查看 IDEA. 工具 的 控制 台 输出 ,效果 如 图 3-40 所 示 。 


Rum _ 4> TestMongo.getDBs ~ = 
» W Tests passed: 1 of 1 test—923 ms 


15, 2020 10:42:54 下 午 com.mongodb.diagnostics.logging.JULLogger log 1 
: Opened connection [connectionId(localValue:2, serverValue:8)] to 192.168.121.150:27017| 4 


ES admin = 

LI A T 
articledb 国 

LI config 

* local i 

z Li 


Process finished with exit code @ 


3-40 查看 数据 库 的 输出 结果 


从 图 3-40 中 可 以 看 出 ,运行 getDBs() 方 法 ,控制 台 显 示 4 个 数据 库 , 即 admin, 
articledb .config 及 local。( 注 意 : 数据 库 test 没有 显示 的 原因 请 参考 3.2.2 节 的 说 明 ) 。 


7. 查看 集合 


在 TestMongo.java 中 ,定义 一 个 getCollection () 方 法 ,用 于 查看 数据 库 articledb 中 的 
集合 ,具体 代码 如 下 : 


1 @Test 

2 public void getCollection() { 

3 mongoDatabase -MongoUtils.getMongoConn(); 

4 MongoIterable«String»listCollectionNames -mongoDatabase.listCollectionNames(); 
5 for (String collectionName : listCollectionNames) { 

6 System.out.println(collectionName.toString()); 

7 5 

8 


上 述 代码 中 ,第 3 行 代码 通过 MongoUtils 类 对 象 调用 getMongoConn( ) 方 法 ,连接 指 
定 的 MongoDB 数据 库 articledb; 第 4 行 代码 通过 MongoDatabase 成 员 对 象 调 用 
listCollectionNames () 方 法 ,从 而 获取 数据 库 articledb 中 的 集合 列表 ;第 5,6 行 代 码 通过 一 
个 高 级 for 循环 ,遍历 迭代 器 对 象 listCollectionNames 并 打印 输出 数据 库 articledb 中 的 所 
有 集合 。 

运行 getCollection () 方 法 ,然后 查看 IDEA. 工具 的 控制 台 输 出 ,效果 如 图 3-41 所 示 。 


Run: _4> TestMongo.getCollection ~ 六 一 | 
a V. Tests passed: 1 of 1 test - 603 ms 
各  wiesiMongo 一 月 15，2929 11:04:07 t|. com.mongodb.diagnostics.logging.JULLogger log 个 
n Y getCollection 603 ms Opened connection [connectionId(localValue:2, serverValue:12)] to 192.168.121.150:2 | 
product = 
" T 
comment, total i 
血 comment 
E a 
i 


Process finished with exit code e 


341 查看 集合 的 输出 结果 


从 图 3-41 中 可 以 看 出 ,运行 getCollection() 方 法 ,控制 台 显示 三 个 集合 , 即 product, 
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comment total 及 comment, 
8. 创建 集合 


在 TestMongo.java 中 ,定义 一 个 createCollection() 方 法 ,用 于 创建 集合 itcast, 具 体 代 
码 如 下 ， 


@Test 


public void createCollection(){ 


g 

2 

E] mongoDatabase -MongoUtils.getMongoConn(); 
4 mongoDatabase.createCollection("itcast"); 
5 


H 


上 述 代码 中 ,第 3 行 代码 通过 MongoUtils 类 对 象 调用 getMongoConn() 方 法 ,连接 指 
定 的 MongoDB 数据 库 articledb; 第 4 行 代码 通过 MongoDatabase 成 员 对 象 调 用 
createCollection () 方 法 ,从 而 创建 集合 itcast。 

运行 createCollection () 方 法 ,实现 创建 集合 操作 ;再 运行 getCollection () 方 法 ,查看 数 
据 库 articledb 中 是 否 出 现 新 创建 的 集合 itcast。IDEA 工具 的 控制 台 输出 的 效果 如 图 3-42 
所 示 。 


Rum _ 4+ TestMongo,getCollection $- 


V Tests passed: 1 of 1 test - 594 ms 
-月 15, 2020 11:46:13 下 午 com.mongodb.diagnostics.logging.JULLogger log 


信息 : Opened connection [connectionId{localValue:2, serverValue:17}] to 192.168.121.150:2 y 
itcast 2 
" product RP, 
B comment total m 
* comment * 
a Li 


Process finished with exit code 9 


图 3-42 查看 数据 库 articledb 中 是 否 存在 集合 itcast 


itcast, 因 此 ,说 明 我 们 成 功 创建 集合 itcast 。 
9. 删除 集合 
在 TestMongo.java 中 ,定义 一 个 dropCollection() 方 法 ,用 于 删除 集合 itcast, 有 具体 代码 如 下 : 


@Test 

public void dropCollection(){ 
mongoDatabase =MongoUtils.getMongoConn(); 
MongoCollection«Document»itcast =mongoDatabase.getCollection("itcast"); 


itcast.drop(); 


ao mw PP 


上 述 代码 中 ,第 3 行 代码 通过 MongoUtils 类 对 象 调用 getMongoConn() 方 法 ,连接 指 
定 的 MongoDB 数据 库 articledb; 第 4 行 代码 通过 MongoDatabase 成 员 对 象 调用 
getCollection () 方 法 ,获取 要 删除 的 集合 itcast; 第 5 行 代码 通过 获取 到 的 itcast 对 象 调用 
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drop() 方 法 ,从 而 删除 集合 itcast。 
运行 dropCollection() 方 法 ,实现 删除 集合 操作 ;再 运行 getCollection() 方 法 ,查看 数据 
库 articledb 中 是 否 还 存在 集合 itcast。IDEA 工具 的 控制 台 输 出 的 效果 如 图 3-43 所 示 。 


Run: 4 TestMongo.getCollection *- 


v Tests passed: 1 of 1 test - S92 ms 


L: 月 16, 2020 12:10:54 上 午 com.mongodb.diagnostics.logging.JULLogger log T 

a 信息 : Opened connection [connectionId(localValue:2, serverValue:21)] to 192.168.121.150:27817 | J 

" product E 

comment, total E 

a zu 
comment 

b * 

s 


Process finished with exit code 0 


图 3-43 ”查看 数据 库 articledb 中 是 否 存在 集合 itcast 


从 图 3-43 中 可 以 看 出 ,运行 getCollection( ) 方 法 ,控制 台 没 有 显示 集合 itcast, 因 此 说 
明 我 们 成 功 删除 了 集合 itcast 。 
10. 查看 文档 


在 TestMongo.java 中 ,定义 一 个 findDocument() 方 法 ,用 于 查看 文档 , 即 查 看 集合 
comment 中 的 文档 ,具体 代码 如 下 : 


1 @Test 

2 public void findDocument () ( 

ES mongoDatabase -MongoUtils.getMongoConn(); 

4 MongoCollection«Document» comment —-mongoDatabase.getCollection ("comment"); 
5 FindIterable« Document» documents -comment.find(); 

6 for (Document document : documents) ( 

NE System.out.println(document); 

8 } 

S 


上 述 代码 中 ,第 3 行 代码 通过 MongoUtils 类 对 象 调用 getMongoConn( ) 方 法 ,连接 指 
定 的 MongoDB 数据 库 articledb; 第 4 行 代码 通过 MongoDatabase 成 员 对 象 调 用 
getCollection ( ) 方 法 , 获取 要 查看 文档 的 集合 comment; 第 5 行 代码 通过 获取 到 的 
comment 对 象 调用 find() 方 法 ,查询 集合 comment 所 包含 的 文档 ;第 6,7 行 代码 通过 一 个 
高 级 for 循环 ,遍历 迭代 器 对 象 documents 并 打印 输出 集合 comment 中 的 所 有 文档 。 

运行 findDocument () 方 法 ,实现 查看 文档 的 操作 ,然后 在 IDEA. 工具 的 控制 台 输出 查 
看 结果 ,效果 如 图 3-44 所 示 ( 因 文档 内 容 过 长 ,这 里 只 截取 部 分 内 容 ) 。 


L^ com.mongodb. diagnostics. logging. JULLogger log 1 
EL: Opened con: [connectionld(localValue:2, serverValue:27)] to 192.168.121.159:27017 
Document(( idel, articleid«lo0001, 


> ape-l8, phone-l5813134403, createdatetine=Fri Jan 03 11:2 
Document(( id-5, articleid-100901, nickname= 罗 窗 区 ,age=18, phone-15813134402, crestedstetime-Fri Ja W 
Docunent{{_id=6，articleid=19e991。content= 马 水 请 生 合体 授 过 口腔 扫 入 本 分 的 方式 ， 人 体 每 天 通过 站 腕 杠 入 的 流体 大 约 有 2 升 ，userid=1e86，nicknane= 受 入 华 。age=39，phone=Docuns 


Process finished with exit code @ 


3-44 查看 集合 comment 中 的 文档 
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从 图 3-44 中 可 以 看 出 ,运行 findDocument () 方 法 ,控制 台 显 示 6 个 文档 ,分 别 是 字段 
_id 为 1.2、3、4、5.6 的 文档 。 


11. 插入 文档 


在 TestMongo.java 中 ,定义 一 个 insertOneDocument() 方 法 ,用 于 插入 单个 文档 , 即 在 
i4 comment 中 插入 一 个 文档 ,具体 代码 如 下 : 


1 @Test 

2 public void insertOneDocument () ( 

3 mongoDatabase =MongoUtils.getMongoConn(); 

4 MongoCollection<Document>comment =mongoDatabase.getCollection ("comment"); 

5 Document document -new Document (" id", "7").append("articleid","100001") 

6 -append("content", "吃饭 前 , 先 喝 杯 水 或 一 碗 汤 , 可 减少 饭量 , 对 控制 体重 有 帮助 ") 

Jm .append("userid","1007") .append("nickname", "玛丽 莲 。 梦 露 ") .append("age", "18") 
8 -append("phone", " 13937165554") .append("createdatetime",new Date()) 

9 -append ("likenum", "8888") .append("state", "null"); 

10 comment .insertOne (document); 


上 述 代码 中 ,第 3 行 代码 通过 MongoUtils 类 对 象 调用 getMongoConn() 方 法 ,连接 指 
定 的 MongoDB 数据 库 articledb; 第 4 行 代码 通过 MongoDatabase 成 员 对 象 调 用 
getCollection () 方 法 ,获取 要 插入 文档 的 集合 comment; 第 5 一 9 行 代码 通过 创建 一 个 
Document 对 象 , 创 建 一 个 新 文档 ,并 通过 append() 方 法 添加 文档 内 容 ; 第 10 行 代 码 通过 集 
合 对 象 comment 调用 insertOne() 方 法 ,并 将 创建 的 文档 作为 参数 传 入 ,实现 在 集合 
comment 中 插入 文档 。 

运行 insertOneDocument() 方 法 ,实现 插入 文档 的 操作 ,再 运行 findDocument() 方 法 ， 
查看 控制 台 是 否 显 示 插 入 的 文档 ,效果 如 图 3-45 所 示 。 


MM | 1s, 2020 12:09:40 FT com. mongodb. diagnostics.logging.JULLogger log 

信息 : Opened connection [connectionld(localvi serverValue: 92}] to 192.168.121.150:27017 
Document(( idel, articleids100801, ETME, RRE. R-AK. PREA 
Document{{_id=2, articleid=100001, WAUTA, userid=1003, nicknames AEI, 
Document{{_id=3, articleid=100001, 


, content= 明 水 是 生命 体 通过 口腔 卉 入 水 分 的 方 fi 
Document(( ide7, articleida100001, contentat. EFKE Rd. MESNE, AH 


xe uppso 


IRA) RU), useridelé07, nicknames™iN E.W, age=18, phones393716555] 


Process finished with exit code © 
81000 M Teminat Otvet toy 


3-45 查看 集合 comment 中 是 否 插入 文档 


从 图 3-45 中 可 以 看 出 ,控制 台 显 示 出 7 个 文档 ,分 别 是 字段 id A 1.2.,3.4,5,6,7 的 文 
档 ,其 中 _id 为 7 的 文档 就 是 新 插入 的 文档 ,因此 说 明 我 们 成 功 向 集合 comment 中 插入 了 一 
个 文档 。 


12. 更 新 文档 


在 TestMongo.java 中 ,定义 一 个 updateDocument( ) 方 法 ,用 于 更 新 文档 , 即 更 新 集合 
comment 中 的 文档 ,具体 代码 如 下 : 
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i gTest 
2 public void updateDocument () { 
3 mongoDatabase -MongoUtils.getMongoConn(); 
4 MongoCollection« Document» comment —-mongoDatabase.getCollection ("comment"); 
5 Document document =new Document ("content", " 饭 后 半 小 时 最 好 不 要 喝 大 量 的 水 ， 
6 以 免 冲 淡 骨 液 ,稀释 胃酸 ,损害 消化 功能 ") ; 
7 comment .updateOne (Filters.eq("content", "吃饭 前 , 先 喝 杯 水 或 一 碗 汤 , 可 减少 饭量 ， 
8 对 控制 体重 有 明显 的 帮助 ") ,new Document ("$set", document) ) ; 
DF 


上 述 代码 中 ,第 3 行 代码 通过 MongoUtils 类 对 象 调用 getMongoConn( ) 方 法 ,连接 指 
定 的 MongoDB 数据 库 articledb; 第 4 行 代码 通过 MongoDatabase 成 员 对 象 调 用 
getCollection() 方 法 ,获取 要 插入 文档 的 集合 comment; 4$ 5,6 行 代码 通过 创建 一 个 
Document 对 象 ,创建 一 个 新 文档 ;第 7、8 行 代码 通过 集合 对 象 comment 调用 updateOne O 
方法 ,根据 指定 条 件 更 新 集合 comment 中 的 文档 。 

运行 updateDocument() 方 法 ,实现 更 新 文档 的 操作 ;再 运行 findDocument() 方 法 , 查 
看 控制 台 是 否 更 新 文档 ,效果 如 图 3-46 所 示 。 


'alue:25}] to 192.168.121.158:27917 " 
REFINE. quiam. A 


, conter 
, content= ILU. 


ge-18, phone=15813134403, 
eridelO06, nicknames iitE, 


^ umer 
userid=1007, nickname=i) iK M 


je=18, phone=1393716 


w[miEoBaiosvE 


Process finished with exit code 8 


图 3-46 查看 集合 comment 中 的 文档 是 否 更 新 


从 图 3-46 中 可 以 看 出 ,控制 台 显 示 出 7 个 文档 ,分 别 是 字段 id 为 1.2、3、4、5、6、7 的 文 
档 ,其 中 _id 为 7 的 文档 的 字段 content 的 内 容 更 新 为 " 饭 后 半 小 时 最 好 不 要 喝 大 量 的 水 ,以 
免 冲淡 胃液 ,稀释 胃酸 ,损害 消化 功能 ,因此 说 明 我 们 成 功 将 集合 comment 中 文档 进行 
更 新 。 


13. 删除 文档 


在 TestMongo.java 中 ,定义 一 个 deleteDocument( ) 方 法 ,用 于 删除 文档 , 即 删除 集合 
comment 中 的 文档 ,具体 代码 如 下 : 


GTest 
public void deleteDocument () { 


MongoCollection« Document» comment —-mongoDatabase.getCollection ("comment"); 


al 

2 

3 mongoDatabase -MongoUtils.getMongoConn(); 
4 

5 comment.deleteOne(Filters.eq(" id","7")); 
6 


H 


上 述 代码 中 ,第 3 行 代码 通过 MongoUtils 类 对 象 调 用 getMongoConn() 方 法 ,连接 指 
定 的 MongoDB 数据 库 articledb; 第 4 行 代码 通过 MongoDatabase 成 员 对 象 调用 
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getCollection() 方 法 ,获取 要 插入 文档 的 集合 comment; f 5 行 代码 通过 集合 对 象 comment 
调用 deleteDocument() 方 法 ,删除 集合 comment 中 _id 为 7 的 文档 。 

运行 deleteDocument() 方 法 ,实现 删除 文档 的 操作 ;再 运行 findDocument() 方 法 ,查看 
控制 台 是 否 删除 id 为 7 的 文档 ,效果 如 图 3-47 所 示 。 


+ 
i 
, nicknameziili: Lj], agez25, phonezDocu — 
ds inenfw an 02 1 


Process finished with exit code @ 


图 3-47 查看 集合 comment rf. id 为 7 的 文档 是 否 被 删除 


从 图 3-47 中 可 以 看 出 ,控制 台 显 示 6 个 文档 ,其 中 _id 为 7 的 文档 已 经 不 存在 ,因此 说 
明 我 们 成 功 删除 了 _id Jy 7 的 文档 。 


3.9 ”使 用 Python 操作 MongoDB 


3.9.1 搭建 Python 环境 


目前 Python 的 主流 开发 工具 有 三 种 : Sublinme Text, PyCharm 以 及 Eclipse 工具 ,我 
们 可 以 在 这 三 个 开发 工具 中 编写 Python 代码 来 操作 MongoDB。 由 于 PyCharm 具有 智能 
代码 补 全 ,直观 项 目 导 航 、 错 误 检查 和 修复 .遵循 PEPS 规范 的 代码 质量 检查 以 及 智能 重 构 
等 优势 ,所 以 现在 大 多 数 的 Python 开发 程序 员 都 会 选择 PyCharm 作为 开发 Python 的 工 
具 。 因 此 ,这 里 选择 在 PyCharm 工具 中 编写 Python 代码 来 操作 MongoDB, 在 编写 前 需要 
下 载 并 安装 Python 和 PyCharm 工具 ,它们 的 下 载 安 装 步 骤 具 体 如 下 。 


1. Python 的 下 载 安装 


(1) 访问 https: //www.python.org/downloads/. F z& Windows 系统 下 的 Python 安装 
包 , 本 书 下 载 的 是 python-3.8.1 版 本 , 即 python-3.8.1-amd64.exe 可 执行 程序 。( 注 意 : 本 书 
会 提供 python-3.8.1-amd64.exe 可 执行 程序 ) 。 

(2) 双击 下 载 的 python-3.8.1-amd64.exe 安装 Python ,需要 注意 的 是 安装 时 一 定 要 勾 
选 Add Python 3.8 to PATH 复 选 框 ,用 于 将 Python 的 安装 路 径 添加 至 系统 环境 变量 中 ， 
具体 如 图 3-48 所 示 。 

(3) 打开 并 进入 Python 的 安装 路 径 , 复 制 Python 的 可 执行 程序 (python.exe) 并 将 其 
重 命 名 为 python3.exe。 

(4) 在 Windows 的 DOS 窗口 执行 python3 命令 ,查看 Python 是 否 安装 成 功 ,效果 如 
图 3-49 所 示 。 

从 图 3-49 中 可 以 看 出 ,Python 的 版 本 号 为 3.8.1, 说 明 Python 安装 成 功 了 。 
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Bj Python 3.8.1 (64-bit) Setup - x 


J Install Python 3.8.1 (64-bit) 
Select Install Now to install Python with default settings, or choose 


Customize to enable or disable features. 


9 Install Now 


CAUsers 11432 AppData ocal Programs Python VPython38 
Includes IDLE, pip and documentation 


Creates shortcuts and file associations 


— Customize installation 


on and features 


puthon 
for E Install launcher for all users (recommended) 


windows EZ Add Python 3.8 to PATH CE 


3-48 勾 选 Add Python 3.8 to PATH $ 3X 1E 


E 管理 员 : C:\Windows\system32\cmd.exe - python3 学 口 x 


图 3-49 查看 Python 


2. PyCharm 的 下 载 安装 


CD 访问 https://www.jetbrains.com/pycharm/download/ € section = windows. F Z 
PyCharm 工具 .本 书 选 用 社区 版 本 pycharm-community-2019.3.3 CA 45 Z pë fJ. pycharm- 
community-2019.3.3.exe) 。 

(2) 双击 下 载 的 pycharm-community-2019.3.3. exe 进行 安装 ,直到 安装 
显示 的 效果 如 图 3-50 所 示 , 则 说 明 PyCharm 工具 安装 成 功 。 


3.9.2 基于 Python API 操作 MongoDB 


在 前 面 小 节 中 ,我 们 搭建 了 用 于 操作 MongoDB 的 Python 环境 。 下 面 ,我们 将 使 用 
Python 对 MongoDB 数据 库 中 的 集合 进行 创建 查看 、 删 除 并 对 集合 中 的 文档 进行 插入 、 更 
新 、 查 询 以 及 删除 操作 。 


M 


Ne 


HW. 


L% 
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1. 创建 Python 项 目 


打开 PyCharm 工具 , 单 击 Create New Project 进入 创建 Python 项 目的 界面 ,在 该 界面 
添加 Python 项 目的 名 称 (nosql_python) 并 指定 项 目的 存储 路 径 , 具 体 如 图 3-51 所 示 。 
在 图 3-51 中 , 单 击 Create 按钮 ,完成 Python 项 目的 创建 ,效果 如 图 3-52 所 示 。 
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加 Welcome to PyCharm (Administrator) 一 x 


PyCharm 


Version 2019.3.3 


十 Create New Project. 
s Open 


¥ Get from Version Control 


Yt Configure v Get Help v 


图 3-50 打开 PyCharm 工具 的 主 界面 


Project Interpreter: Python 3.8 
O New environment using f Virtualeny ~ 


Location: EAdata\PycharmProjects\nosql_python\venv 


口 Inherit global site-packages 


OM le to all projects 选择 本 地 安装 的 Python, 若 没有 则 需要 手动 添加 


rpreter 


图 3-51 添加 Python 项 目的 名 称 并 指定 项 目的 存储 路 径 


M Fie Edit View Navigate Code Refactor Run Tools VCS Window Help nosql python = 0 x 


Ma nosql python Add Configuration.. > č & 目 | Q 
*- 


data PycharmPr, 


Wi Scratches and Consoles. 


FEM Terminal — @ Python Console $= € TODO 


图 3-52 创建 的 Python MA 
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2. 创建 Python 文件 ,连接 MongoDB 数据 库 


在 项 目 nosql python chapter03 目录 下 创建 一 个 名 为 TestMongoDB.py 的 文件 ,该 文 
件 用 于 编写 Python 连接 MongoDB 数据 库 ,具体 代码 如 文件 3-4 所 示 o 
文件 3-4 TestMongoDB.py 


1 from pymongo import MongoClient 

2. 8g — Test 类 

3 class Test: 

4 * 创建 类 的 构造 函数 或 初始 化 方法 ,其 中 包含 一 个 参数 self, 表示 类 的 实例 , self 在 定义 类 
5 的 方法 时 是 必须 要 有 的 ,在 调用 时 可 以 不 传人 相应 的 参数 

6 def init (self): 

7 # 获 取 数 据 库 的 连接 

8 self.client-MongoClient('192.168.121.134', 27017) 
9 print(self.client) 

10 # 主 程序 人 口 

11 if name  --' main ': 

12 * 创建 类 的 实例 对 象 


13 test=Test() 


上 述 代码 中 ,第 3 一 9 行 代码 创建 一 个 Test 类 ,并 对 该 Test 类 进行 初始 化 , 即 定义 一 个 
初始 化 方法 __init__(self) ,用 于 获取 数据 库 的 连接 ,并 传人 参数 self ,该 参数 表示 类 的 实例 ， 
在 定义 类 的 方法 时 是 必需 的 ;第 11 一 13 行 代码 为 主 程序 的 入 口 , 即 对 Test 类 进行 实例 化 ， 
从 而 运行 该 项 目 ,实现 连接 MongoDB 数据 库 。 需 要 注意 ,默认 情况 下 Python 库 中 不 包含 
pymongo 库 ,需要 在 Windows 的 DOS 命令 行 窗口 执行 pip install pymongo 命令 ,安装 
pymongo JË , 

运行 文件 3-4 中 的 代码 (注意 , 若 用 右键 运行 程序 , 则 需要 将 光标 放 在 main 方法 里 ), 然 
后 查看 PyCharm 工具 的 控制 台 输 出 ,输出 效果 如 图 3-53 所 示 o 


Rum ^ TestMongoDB $=- 
X b 个， E:MataWPycharmProjectsVnosql python chaptere3WvenvAScriptsWpython.exe E:/data/PycharmProjects/nosql 
wu [MengoClient(hostz['192.168.121.150:27017'], document class-dict, tz aware-False, connect-True) 
g 
ij" a Process finished with exit code 6 
A 
= * » 
四 Tominal — @ Python Console MEER =srooo Q tvert Log 
IE] Packages installed successfully: Installed packages: 'pymongo' (today 16:01) 53 CRLF UTF-8 4spaces Python 3.8 (nosql_python_chapter03) à ff 
图 3-S3 ”连接 MongoDB 数据 库 的 效果 
3. 查看 数据 库 


在 TestMongoDB.py 中 ,定义 一 个 getDBs() 方 法 ,用 于 查看 MongoDB 中 的 所 有 数据 
库 , 具 体 代 码 如 下 : 


1 from pymongo import MongoClient 


2 class Test: 
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3 def init (self): 

4 # 用 于 获取 数据 库 的 连接 

5 self.client-MongoClient('192.168.121.134', 27017) 
6 &print(self.client) 

了 def getDBs (self): 

8 dbs-self.client.list database names() 
9 for db in dbs: 

10 print(db) 

11 if. name ==" main ': 

12 test -Test() 

13 test.getDBs() 


上 述 代码 中 ,第 7.、8 行 代码 定义 getDBs() 方 法 ,通过 MongoClient 对 象 的 实例 调用 list 
_database_names() 方 法 ,获取 MongoDB 中 的 所 有 数据 库 ; 第 9.10 行 代码 通过 一 个 高 级 for 
循环 ,遍历 并 打印 MongoDB 中 的 所 有 数据 库 ; 第 13 行 代码 通过 Test 类 的 实例 化 对 象 调用 
类 中 的 getDBs() 方 法 ,实现 查看 数据 库 操作 。 

运行 上 述 代 码 ,然后 查看 PyCharm 工具 的 控制 台 输 出 ,效果 如 图 3-54 所 示 。 


Run: TestMongoDB mc 
» 4 E: Mata WPycharmProjects Wnosql, python, chapter63 venvAScrip 
LEE 
moo 

z 
2 Š 

W Process finished with exit code 6 
EM Terminal — 4 Python Console = 6: TODO @ Event Log 


图 3-54 查看 数据 库 


从 图 3-54 中 可 以 看 出 ,控制 台 输 出 4 个 数据 库 , 即 admin articledb config 以 及 local, 
4. 查看 集合 


在 TestMongoDB.py 中 ,定义 一 个 getColl () 方 法 ,用 于 查看 数据 库 articledb 中 的 集 
合 , 具 体 代码 如 下 : 


1 frompymongo import MongoClient 

2 class Test: 

3 def init (self): 

4 # 用 于 获取 数据 库 的 连接 

5 self.client-MongoClient('192.168.121.134', 27017) 
6 £print(self.client) 

Fi def getColl(self): 

8 articledb -self.client["articledb"] 

E collections-articledb.list collection names() 
10 for collection in collections: 

11 print(collection) 
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12 if name ==". main ` 
13 test -Test() 
14 test.getColl() 


上 述 代码 中 ,第 7.8 行 代码 定义 getColl() 方 法 ,通过 MongoClient 对 象 的 实例 指定 要 
查看 集合 的 数据 库 , 即 articledb; $ 9 行 代码 通过 集合 对 象 实例 articledb 调用 list_ 
collection_names() 方 法 ,获取 数据 库 articledb 中 的 集合 ;第 10,11 行 代码 通过 一 个 高 级 for 
循环 ,遍历 并 打印 数据 库 articledb 中 的 所 有 集合 ;第 14 行 代码 通过 Test 类 的 实例 化 对 象 调 
用 getColl() 方 法 ,实现 查看 集合 操作 。 

运行 上 述 代 码 ,然后 查看 PyCharm 工具 的 控制 台 输 出 ,效果 如 图 3-55 所 示 。 


: ^ TestMongoDB > $ = 
E: \data\PycharmProjects\nosql_python_chapter@3\venv\Scripts\pytl 
product 
comment total 
comment 


Process finished with exit code 6 


Bl Terminal — 4& Python Console 


图 3-55 查看 数据 库 articledb 中 的 集合 


从 图 3-55 中 可 以 看 出 ,控制 台 输 出 三 个 集合 , 即 product; comment. total 及 comment. 
5. 创建 集合 
在 TestMongoDB.py 中 ,定义 一 个 createColl() 方 法 ,用 于 创建 集合 ,具体 代码 如 下 : 


1 from pymongo import MongoClient 

2 class Test: 

3 def init (self): 

4 # 用 于 获取 数据 库 的 连接 

5 self.client-MongoClient('192.168.121.134', 27017) 

6 $*print(self.client) 

F def createColl(self): 

8 articledb -self.client["articledb"] 
articledb.create collection("itcast") 

10 if name  --' main ': 

11 test -Test() 

12 test.createColl() 


上 述 代码 中 ,第 7.、8 行 代 码 定义 createColl () 方 法 ,通过 MongoClient 对 象 的 实例 指定 
要 创建 集合 的 数据 库 , 即 articledb; 第 9 行 代码 通过 数据 库 对 象 实例 articledb 调用 create 
collection () 方 法 ,用 于 创建 集合 itcast; 第 12 行 代码 通过 Test 类 的 实例 化 对 象 调用 
createColl () 方 法 ,实现 创建 集合 操作 。 

运行 上 述 代 码 ,实现 创建 集合 操作 ;在 主 程序 中 再 次 调用 查看 集合 的 方法 getColl() «dE 
看 数据 库 articledb 中 是 否 出 现 新 创建 的 集合 itcast。PyCharm 工具 的 控制 台 输出 的 效果 如 


图 3-56 所 示 。 
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Run ^ TestMongoDB $% 一 
| 个 E:\data\Pycharmprojects\nosql_python_chaptere3\venv\Scripts\python.exe 
vy product 

一 comment total 
mo 

ža comment 
* itcast 

* 

W process finished with exit code 6 
EB Terminal — 49 Python Console 38 & TODO @ Event Log 


3-56 ”查看 数据 库 articledb 中 是 否 存在 集合 itcast 


从 图 3-56 中 可 以 看 出 ,控制 台 显示 了 集合 itcast, 因此 ,说 明 我 们 成 功 在 数据 库 


articledb 中 创建 


了 集合 itcast 。 


6. 删除 集合 


在 TestMongoDB.py 中 ,定义 一 个 dropColl() 方 法 ,用 于 删除 集合 itcast, 具 体 代码 如 下 ; 


def 


* 


vo Oo - Oo Oc & UNE 


from pymongo import MongoClient 

class Test: 

—.init (self): 

# 用 于 获取 数据 库 的 连接 
self.client-MongoClient('192.168.121.134', 27017) 


print(self.client) 


def dropColl(self): 
articledb -self.client["articledb"] 
articledb.drop collection("itcast") 


10 if name --' main ': 


iu test 


-Test() 


12 test.dropColl() 


上 述 代码 中 


,第 7.8 行 代码 定义 dropColl() 方 法 ,通过 MongoClient 对 象 的 实例 指定 要 


删除 集合 的 数据 库 articledb: $ 9 行 代码 通过 数据 库 对 象 实例 articledb 调用 drop - 
collection () 方 法 ,删除 集合 itcast; 第 12 行 代 码 通过 Test 类 的 实例 化 对 象 调 用 dropColl O 
方法 ,实现 删除 集合 操作 。 

运行 上 述 代 码 ,实现 删除 集合 操作 ;在 主 程序 中 再 次 调用 查看 集合 的 方法 getColl() ,查看 
数据 库 articledb 中 是 否 还 存在 集合 itcast。PyCharm 工具 的 控制 台 输 出 的 效果 如 图 3-57 所 示 。 


Run: TestMongoDB 9 = 
> +  E:\data\PycharmProjects\nosql_python_chaptere3\venv\Scripts\python.exe 
m 上 |product 

一 | comment_total 
一 a comment 
^ 

© Process finished with exit code @ 

i 
E Terminal — 4 Python Console. P Runs {= & TODO. € Event Log 


3-57 ”查看 数据 库 articledb 中 是 否 存在 集合 itcast 
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从 图 3-57 中 可 以 看 出 ,控制 台 没 有 显示 集合 itcast, 说 明 我 们 成 功 删 除了 集合 itcast。 
7. 查看 文档 


在 TestMongoDB. py 中 ,定义 一 个 findDoc () 方 法 .用 于 查看 文档 , 即 查看 集合 
comment 中 的 文档 ,具体 代码 如 下 : 


1 frompymongo import MongoClient 

2 class Test: 

£l def init (self): 

4 # 用 于 获取 数据 库 的 连接 

5 self.client-MongoClient('192.168.121.134', 27017) 
6 $print(self.client) 

了 def findDoc (self): 

8 self.articledb -self.client["articledb"] 
9 comment -self.articledb["comment"] 

10 documents -comment.find() 

11 for document in documents: 

12 print(document) 

13 if | name  --' main ': 

14 test -Test() 

15 test.findDoc() 


上 述 代码 中 ,第 7.8 行 代码 定义 findDoc() 方 法 ,通过 MongoClient 对 象 的 实例 指定 要 
查看 集合 的 数据 库 articledb; 第 9 行 代码 通过 数据 库 对 象 实例 articledb 指定 要 查看 文档 的 
EE comment; 第 10 行 代码 通过 集合 对 象 实例 comment 调用 find() 方 法 ,查看 集合 
comment 中 的 文档 ;第 11,12 行 代码 通过 一 个 高 级 for 循环 ,遍历 并 打印 输出 集合 comment 
中 的 所 有 文档 ;第 15 行 代码 通过 Test 类 的 实例 化 对 象 调用 findDoc ) 方 法 ,实现 查看 文档 
操作 。 
运行 上 述 代 码 ,实现 查看 文档 操作 。PyCharm 工具 的 控制 台 输 出 的 效果 如 图 3-58 所 
示 ( 因 文档 内 容 过 长 ,这 里 只 截取 部 分 内 容 ) 。 


i 4- 


wmv 


中 昌国 由 < ~ 


"articleid': * ^, "content" dr E CIEHBLA ACIER. A fi ORIS LINDE Ai f bow , 


Process finished with exit code © 


mies oyente MEE] oo0 [rem 


图 3-58 ”查看 集合 comment 中 的 文档 


从 图 3-58 中 可 以 看 出 ,控制 台 显示 出 6 个 文档 ,分 别 是 字段 id JJ 1,2,3,4,5,6 的 
文档 。 


8. 插入 文档 


在 TestMongoDB.py 中 ,定义 一 个 insertOneDoc() 方 法 ,主要 用 于 演示 插入 文档 , 即 在 
合 comment 中 插入 文档 ,具体 代码 如 下 : 
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1 frompymongo import MongoClient 

2 class Test: 

3 def init (self): 

4 # 用 于 获取 数据 库 的 连接 

5 self.client-MongoClient('192.168.121.134', 27017) 
6 $*print(self.client) 

J def insertOneDoc (self): 

8 self.articledb -self.client["articledb"] 
9 comment -self.articledb["comment"] 

10 newDoc- ( 

n s diee, 

12 "articleid":"100001", 

13 "content":" 脱 水 会 使 人 精 疲 力 尽 ,而 喝 水 可 以 使 人 精神 饱满 "， 
14 "userid":"1007", 

15 "nickname": "ARRE", 

16 "age":"25", 

17 "phone":"13937165554", 

18 "createdatetime":"new Date()", 

19 "likenum":"999", 

20 "state":"1" 

21 } 

22 comment .insert_one (newDoc) 

23 if name --' main ': 

24 test -Test() 

25 test.insertOneDoc() 


上 述 代码 中 ,第 7、8 行 代码 定义 insertOneDoc() 方 法 ,通过 MongoClient 对 象 的 实例 指 
定 要 查看 集合 的 数据 库 , 即 articledb; 第 9 行 代 码 通过 数据 库 对 象 实例 articledb 指定 要 插入 
文档 的 集合 comment; 第 10 一 21 行 代码 创建 一 个 新 文档 newDoc, 并 包括 10 个 键 值 对 参 
数 ; 第 22 行 代码 通过 集合 对 象 实 例 comment 调用 insert_one() 方 法 ,向 集合 comment Hifi 
入 文档 ;第 25 行 代码 通过 Test 类 的 实例 化 对 象 调 用 insertOneDoc() 方 法 ,实现 插入 文档 
操作 。 

运行 上 述 代码 ,实现 插入 文档 操作 。 在 主 程序 中 再 次 调用 查看 集合 的 方法 findDoc()， 
查看 集合 comment 中 是 否 插入 了 新 的 文档 。PyCharm 工具 的 控制 台 输 出 的 效果 如 图 3-59 
所 示 ( 因 文档 内 容 过 长 ,这 里 只 截取 部 分 内 容 ) 。 


TesMongepa 


FOLE 
CE T 


"articleid" 
ici 


Process finished with exit code @ 
Wes A eoon cono MEME = 5 ooo [Tem 


3-59 查看 集合 comment 中 的 文档 


从 图 3-59 中 可 以 看 出 ,控制 台 显示 出 7 个 文档 ,分 别 是 字段 id 为 1.2、3、4、5、6、7 的 文 
档 , 其 中 id 为 7 的 文档 是 新 插入 的 文档 ,因此 说 明 我 们 成 功 向 集合 comment 中 插入 了 
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文档 。 
9. 更 新 文档 


在 TestMongoDB.py 中 ,定义 一 个 updateDoc() 方 法 ,用 于 更 新 文档 , 即 更 新 集合 
comment 中 的 文档 ,具体 代码 如 下 : 


1 frompymongo import MongoClient 

2 class Test: 

z] def __init__(self): 

4 # 用 于 获取 数据 库 的 连接 

5 self.client-MongoClient('192.168.121.134', 27017) 

6 $print(self.client) 

wi def updateDoc (self): 

8 self.articledb -self.client["articledb"] 

9 comment -self.articledb["comment"] 

10 comment .update_one({"content":" 脱 水 会 使 人 精 疲 力 尽 ,而 喝 水 可 以 使 人 精神 饱满 "}， 
11 ("$set": ("content": "RE (& Bj , JE IB FR7K s — 9017, 可 减少 饭量 , 对 控制 体重 有 了 明显 的 帮助 "})}) 
12 if name ==" main ": 

13 test -Test() 

14 test.updateDoc() 


上 述 代 码 中 ,第 7.8 行 代码 定义 updateDoc() 方 法 ,通过 MongoClient 对 象 的 实例 指定 
要 查看 集合 的 数据 库 , 即 articledb; 第 9 行 代码 通过 数据 库 对 象 实例 articledb 指定 要 更 新 文 
档 的 集合 comment; 第 10,11 行 代码 通过 集合 对 象 实例 comment 调用 update_one() 方 法 ， 
更 新 集合 comment 中 的 文档 ;第 14 行 代码 通过 Test 类 的 实例 化 对 象 调用 updateDoc OZ; 
法 ,实现 更 新 文档 操作 。 

运行 上 述 代 码 ,实现 更 新 文档 操作 。 在 主 程序 中 再 次 调用 查看 集合 的 方法 findDoc()， 
查看 集合 comment 中 的 文档 是 否 更 新 。PyCharm 工具 控制 台 输 出 的 效果 如 图 3-60 所 示 
( 因 文 档 内 容 过 长 ,这 里 只 截取 部 分 内 容 ) 。 


Fun: A Tesmongoo® *- 
bp E PycharmProjects NA python. ep AScriptsWpython.exe E:/data/PycharmProjects/nosql python « ea oy 
Et *: "100001', * 我 RR 
B c *: '100001', * 
wo c *: '100001', ' 我 都 蝎 凉 开水 "， "usi 
»H :; id: "ieseel', ， i CRUCRÉESSDBHOK. WMAP 
*c id': '108001', 'content" REW. BIBOTIEACT TIRES. 
nt ^: "188691' ，'content，: ' 昌 水 是 生 合体 通 过 口腔 扳 入 水 分 的 方式 ， 人 1 
1 *: '1eeeei', ['content': "ei. ANEKA M. RSN. GEMEEN] 'userid': '1867', 'nickname': “由 尺 天 洗 间 '， 'a 
Process finished with exit code 8. 
Wen O Pron cono E = ciooo Otem ion 


3-60 ”查看 集合 comment 中 的 文档 


从 图 3-60 中 可 以 看 出 .控制 台 显示 出 7 个 文档 ,分 别 是 字段 id 为 1.2、3、4、5、6、7 的 文 
档 ,其 中 _id 为 7 的 文档 中 字段 content 的 内 容 更 新 为 “吃饭 前 , 先 喝 杯 水 或 一 碗 汤 ,可 减少 
饭量 ,对 控制 体重 有 明显 的 帮助 ”因此 说 明 我 们 成 功 更 新 了 集合 comment 中 的 文档 。 


10. 删除 文档 


在 TestMongoDB. py 中 ,定义 一 个 deleteDoc () 方 法 .用 于 删除 文档 , 即 删除 集合 
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comment 中 的 文档 ,具体 代码 如 下 : 


1 frompymongo import MongoClient 

2 class Test: 

3 def init (self): 

4 # 用 于 获取 数据 库 的 连接 

5 self.client-MongoClient('192.168.121.134', 27017) 
6 $*print(self.client) 

了 def deleteDoc(self): 

8 self.articledb -self.client["articledb"] 

9 comment -self.articledb["comment"] 

10 comment.delete one(("nickname":"J8 R XiEiB")) 
11 If onines NN TEIG TURNS 

12 test -Test() 

13 test.deleteColl() 


上 述 代 码 中 ,第 7.、8 行 代码 定义 deleteColl() 方 法 ,通过 MongoClient 对 象 的 实例 指定 
要 查看 集合 的 数据 库 , 即 articledb; 第 9 行 代码 通过 数据 库 对 象 实例 articledb 指定 要 删除 文 
档 的 集合 comment; 第 10 行 代码 通过 集合 对 象 实例 comment 调用 delete_one() 方 法 ,根据 
指定 条 件 删 除 集合 comment 中 单条 文档 ;第 13 行 代码 通过 Test 类 的 实例 化 对 象 调用 
deleteColl() 方 法 ,实现 删除 文档 操作 。 

运行 上 述 代 码 ,实现 删除 文档 操作 。 在 主 程序 中 再 次 调用 查看 集合 的 方法 findDoc()， 
查看 集合 comment 中 的 文档 是 否 发 生变 化 。PyCharm 工具 的 控制 台 输 出 的 效果 如 图 3-61 
所 示 ( 因 文档 内 容 过 长 ,这 里 只 截取 部 分 内 容 ) 。 


Rn 7 TeerMongepl $- 
v\Scripts\python.exe E:/data/Pychara?rojects/nosql_python_chapter@3/TestMongoD8. py 
在 于 IRER. WALK. yi 


*, ‘content: 


Process finished with exit code @ 
mies recs © 5 ow ioc TT] 


图 3-61 查看 集合 comment 中 的 文档 


从 图 3-61 中 可 以 看 出 ,控制 台 显 示 出 6 个 文档 ,其 中 _id 为 7 的 文档 已 经 不 存在 ,因此 
说 明 我 们 成 功 删除 了 nickname “ERR JE [8] " SJ SCR 


3.10 使 用 Robo 3T 操作 MongoDB 


工 欲 善 其 事 , 必 先 利 其 器 。 当 我 们 使 用 MongoDB 数据 库 时 ,通常 需要 各 种 工具 的 支持 
来 提高 效率 。 而 Robo 3T 是 一 个 路 平台 的 MongoDB GUI 客户 端 管理 工具 , 它 以 图 形 化 的 
方式 显示 操作 界面 ,让 用 户 可 以 对 MongoDB 进行 可 视 化 操作 ,并 且 支 持 Windows, Mac OS 
和 Linux 系统 ,这 里 我 们 以 Windows 系统 为 例 , 详 细 讲 解 如 何 使 用 Robo 3T 操作 
MongoDB, 


25, 


NoSQL 数据 库 技 术 与 应 用 


3.10.1 Robo 3T 工具 的 下 载 安装 


由 于 我 们 要 使 用 Robo 3T 操作 MongoDB, 因 此 我 们 需要 下 载 并 安装 Robo 3T, 其 下 
载 、. 安 装 以 及 启动 的 步 又 如 下 。 


1. 下 载 Robo 3T 


访问 网 页 https://robomongo.org/download/ ,下 载 Windows 系统 下 的 Robo 3T 安装 
包 , 本 书 下 载 的 是 robo3t-1.3.1 版 本 , 即 robo3t-1.3.1-windows-x86_64-7419c406.exe 可 执行 
程序 。 (注意 : 本 书 提供 robo3t-1.3.1-windows-x86_64-7419c406.exe 可 执行 程序 ) 。 


2. 安装 Robo 3T 


双击 下 载 的 robo3t-1.3.1-windows-x86_64-7419c406.exe 安装 Robo 3T, 直 到 出 现 完 成 
界面 为 止 。 


3. 启动 Robo 3T 


打开 Robo 3T, 出 现 End-User License Agreement (最终 用 户 许 可 协议 ) 界 面 , 单 击 I 
agree 左 侧 的 单 选 按钮 ,选择 接受 协议 ; 单 击 Next 一 Finish 按钮 ,启动 Robo 3T, 启 动 成 功 的 
界面 如 图 3-62 所 示 。 


IO 


Need a more powerful GUI? Try Robo 3T's sibling, Studio 3T Blog 


Lise Porta 


图 3-62 Robo 3T 启动 成 功 的 界面 


3.10.2 基于 Robo 3T 操作 MongoDB 


在 前 面 小 节 中 ,我 们 下 载 安装 并 启动 了 用 于 操作 MongoDB 的 Robo 3T 工 具 。 下 面 ,我 
们 将 使 用 Robo 3T 对 MongoDB 中 数据 库 、 集 合 进行 创建 .删除 ,并 对 集合 中 的 文档 进行 插 
入 ,更 新 .查询 以 及 删除 等 操作 。 
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1. 连接 MongoDB 
单 击 图 3-62 中 的 Create 按钮 ,弹出 Connection Settings 对 话 框 ,添加 要 连接 MongoDB 
的 IP 地址 和 端口 号 ,如 图 3-63 所 示 。 


加 Connection Settings 


Connection | Authentication SSH SSL Advanced 


Type: [Direct Connection 
Nane: New Connection 
Address: |192. 168. 121. 134 1 [27017 


Specify host and port of MongoDB server. Host can be 
either IPv4, IPv6 or domain name. 


FORSR] [Import connection details from MongoDB SRY connect-- 


3-63 ME MongoDB 连接 


在 图 3-63 中 , 单 击 Save 按钮 ,完成 MongoDB 连接 的 配置 ,进入 MongoDB Connections 
界面 , 单 击 Connect 按钮 ,连接 MongoDB。 成 功 连接 MongoDB 的 效果 如 图 3-64 所 示 。 


6 Robo3T - 1.3 s o x 
File View Options Window Help 
d -mid»uo 
~ E New Connection. 
NIS 61— [6 volcone x 5i 
> B admin , 
» B local Need a more powerful GUI? Try Robo 3T's 1 


> Bl articledb. 

> B config d ® 
Enjoy new features like 
— Schedule MongoDB tasks 


一 Write SQL to query MongoDB 
- Import multiple SQL tables to a single MongoDB 


< 


Logs 


A 3-64 成 功 连接 MongoDB 的 效果 


2. 创建 数据 库 


在 图 3-64 中 选中 New Connections , 右 击 并 选择 Create Database 选项 ,弹出 Create 
Database 对 话 框 ,添加 数据 库 名 称 itcast, 单 击 Create 按钮 ,创建 数据 库 itcast, 具 体 步 又 如 


图 3-65 所 示 。 至 此 完成 数据 库 itcast 的 创建 ,如 图 3-66 所 示 。 


3. 删除 数据 库 
选中 数据 库 itcast, 右 击 并 选择 Drop Database 选项 ,弹出 Drop Database 对 话 框 , 单 击 


ES 
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€ Robo3T- 1.3 = o x 
File View Options Window Help 
d-ui»u 
|v 国 New Connection 
DN SE g, Open Shell 
Wur Barah neol € Create Database x A 
> B admin 
> B local abli 国 192 168,121. 134:27017 国 
> B articledb Server Status 
> B config Host Info Database Haasi 
MongoDB Version His 
Show Log v 
Disconnect > 
Logs 
3-65 ”创建 数据 库 itcast 的 步骤 
€ Robo3T - 1.3 - 口 X 
File View Options Window Help 
B-wi»u 
| INew Connection (S) — (& velcoe x 
2, P Seem Write SQL t MongoDB sa 
> 目 articledb ala D po 
— Import multiple SQL tables to a single MongoDB 
> B config collection ü 
»[B itcast | : 
— Enjoy rich query autocompletion 
- Build queries via drag-and-drop 
— Import and export in various formats (CSV, JSON, 
SQL, BSON/mongodump) Y 
< > 
Logs a 


图 3-66 ”完成 数据 库 itcast 的 创建 


Yes 按钮 ,删除 数据 库 itcast, 具 体 步骤 如 图 3-67 所 示 。 查 看 数据 库 列 表 , 列 表 中 已 不 存在 
itcast, 则 说 明 该 数据 库 已 被 删除 ,效果 如 图 3-68 所 示 。 


€ Robo3T- 1.3 - 口 X 
File View Options Window Help 
CECILE 


|v E New Connection (5) [® welcome x | 


> . System 
z - Write SQL t MongoDB 入 
> B articledb D. quety Mone 
> B confi - Import multiple SQL tables to a single MongoDB 
ed collection 
> BiitcastB) 。 Open shell 


Refresh 
Database Statistics 
- Drop itcast database? 
Current Operations ~ 
Kill Operation... 9) 
Repair Database... S 


Logs 


图 3-67 删除 数据 库 itcast 的 步骤 
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€ Robo3T-13 = o x 
File View Options Window Help 
B-xd»ruam 
[v Œ New Connection (4) À tdan | 
> . System Wis m "3 
> B articledb Peto quer Mong 
— Import multiple SQL tables to a single MongoDB 
> B config collection L| 
- Enjoy rich query autocompletion 
— Build queries via drag-and-drop a 
< ? 
Logs a 
3-68 ”查看 数据 库 列 表 
4. 创建 集合 


双击 数据 库 articledb ,选中 


Collections (3) , 右 击 并 选择 Create Collection 选项 ,弹出 


Create Collection 对 话 框 ,添加 集合 名 称 books, 单 击 Create 按钮 ,创建 集合 ,具体 步骤 如 


图 3-69 所 示 。 双 击 Collections( 
果 如 图 3-70 所 示 。 


4) , 若 集合 列表 中 出 现 集合 books, 则 说 明 创 建 集合 成 功 , 效 


6 Robo3T- 1.3 3s o x 
File View Options Window Help 
B-uidrwae 

[v Œ New Connection (4) & Telcone x 

> T System " 

B uicit - Write SQL to query MongoDB | 49 Create Collection ? x ^ 
> E Collections (3)(@) Œ 192. 168. 121. 134:27017 B articledb a 
> . Functions 
> li Users Collection Nane: 

> Bi config books 9 v 

Cancel Advanced £ 

Logs 

E 3-69 创建 集合 books 的 步骤 
€ Robo3T-13 = n x 
File View Options Window Help 
H-wi»u 
|v E New Connection (4) ^ [e Telcome X 

> | System A 

V B SUD - Write SQL to query MongoDB 
v E Collections (4) - Import multiple SQL tables to a single MongoDB 

collection 
s] 
> TE comment - Enjoy rich query autocompletion 
> E comment total - Build queries via drag-and-drop 
> &3 product — Import and export in various formats (CSV, JSON, 
BI nion SQL, BSON/ongodump) 
> B users ~ Break down aggregation queries into stages v 
> B config v EE > 
Logs 


图 3-70 创建 好 的 集合 books 
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5. 删除 集合 


选中 图 3-70 中 数据 库 articledb 中 Collections(4) 下 的 集合 books, 右 击 并 选择 Drop 


Collection 选项 ,弹出 Drop Collection 对 话 框 , 单 击 Yes 按钮 ,删除 集 


合 , 具 


[EP 


体 步 骤 如 图 3-71 


所 示 。 双 击 Collections(3) , 若 集 合 列表 中 不 存在 集合 books, 则 说 明 删 除 集合 成 功 ,效果 如 


图 3-72 所 示 。 


€ Robo3T-1.3 d 口 X 
File View Options Window Help 
^5 
g-uiu»rae 
|v Œ New Connection (4) Í & tacas x | 
> | System —— B z 
v B articledb 一 Write SQL to query NongoDB 
v T Collections (4) - Import multiple SQL tables to a single MongoDB collection 
»Bibooks (0) ^ view Documents etim 
> E comment ; 
> 图 comment toy  I"SertDocument. 
> E product Update Documents... : 
» ll Functions Remove Documents... & Drop collection x 
» lj Users Remove All Documents... 
Drop books collection? 
> B config Rename Collection... Q T 
Duplicate Collection... 9) 
(6) Yo 
Statistics 
v 
Shard Version y 
[m Shard Distribution 
图 3-71 删除 集合 books 的 步骤 
€ Robo3T- 1.3 加 口 x 
File View Options Window Help 
n ^ 
D -wa 
Iv E New Connection (4) [e Welcoae X | 
> ? System X 
v B articledb. - Write SQL to query MongoDB 
v X Collections (3) - Inport multiple SQL tables to a single MongoDB collection 
> Œ comment - Enjoy rich query sutocompletion B 
X Uli comenent toni - Build queries via drag-and-drop 
> product I d in various f (csv, JSON, SAL, 
z - Import and export in various formats (CSV, JSON, SQL, 

> . Functions BSON/nongodunp) 

2 UC 一 Break down aggregation queries into stages v 
> B config < > 
Logs 

图 3-72 查看 集合 列表 
6. 查看 文档 


双击 图 3-72 中 数据 库 articledb 下 的 集合 comment, 查 看 该 集合 中 的 所 有 文档 ,效果 如 


图 3-73 所 示 。 


从 图 3-73 中 可 以 看 出 ， 


合 comment 中 有 6 个 文档 。 我 们 可 以 通过 双击 打开 文档 ,从 


而 查看 该 文档 的 详细 内 容 ,这 里 以 查看 _id 为 1 文档 的 详细 内 容 为 例 ,如 图 3-74 所 示 。 
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€ Robo3T-1.3 
File View Options Window Help 


大 -| 夺回 > 日 党 


lv Œ New Connection (4) 


| È db. getCollection! 


> 5 System 
v B articledb. 
v . Collections (3) 


S New Connection Œ 192.168.121.134:27017 目 articledb 


> E comment. 
Œ comment total 


Key Value Type 


File View Options Window Help 
A- Bha? 


[v E New Connection (4) 


> 国 (peus (10 fields } 
> E Functions {10 fields} 
> - Users {10 fields} 
> B config {10 fields } 
{10 fields } Object 
{10 fields } Object 
Logs 
A 3-3 EREA comment 中 的 文档 
€ Robo3T-13 i 2x 


3m iuo 


| € b. sotCollactiont x 
> F System 
Bl aricedb 4f llev Connection E 1 Q7 B articled: 

vi coecioa C 
> E comment. comment ( 0.001 sec. EL o 
> IŒ comment to'al Key Value Type 
> EŒ product ~ {10 fields} Object 

> Functions p 1 String 

Ub aa s articleid 100001 String 

YN cong = content 请 层 ， 我 们 不 该 到 时 间 浪 费 在 手机 上 ，.。 sting 
userid 2 String 
此 nickname i String 
ts age String 
3 phone (2 fields) Object 
** homePhone 82174911 String 
*5 mobilePhone 13065840128 String 
€ createdatetime. 2020-01-02 01:08:15.0002 te 
区 likenum 1000 
区 state 1 
> Sz (10 fields} 
» e» B)3 (10 fields } 
> 44 (10 fields ) 
> (55 (10 fields ) 
> €» (66 [10 fields } 
Logs 


图 3-74 查看 集合 comment 中 _id 为 1 的 文档 的 详细 内 容 


7. 插入 文档 


选中 数据 库 articledb 下 的 集合 comment' 右 击 并 选择 Insert Document 选项 ,弹出 


Insert Document 窗口 ,添加 需要 插入 的 文档 ,如 图 3-75 Bron 。 


在 图 3-75 中 , 单 击 Save 按钮 ,完成 插入 文档 操作 。 通 过 双击 数据 库 articledb 下 的 集合 


comment ,查看 该 集合 是 否 插入 新 文档 ,如 图 3-76 所 示 。 


从 图 3-76 中 可 以 看 出 ,集合 comment 中 有 7 个 文档 ,分 别 是 字段 id 为 1.2、3、4、5、6、7 
的 文档 ,其 中 id 为 7 的 文档 是 新 插入 的 文档 ,因此 说 明 我 们 成 功 往 集合 comment 中 插入 了 


文档 。 
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A Insert Document 口 x 


Œ 192.168.121.134:27017 B articledb comment 


@validte Cancel 


图 3-75 添加 要 插入 的 文档 


& Robo3T- 1.3 一 口 x 
File View Options Window Help 
A-ha? 
Iv E| New Connection (4) V db. getCollection( X 
System 
A YES df ev C B 192.168.121.134:27017 B articledb 
v 1 Collections (3) 
» 四 comment coment (0.001 sec. «XL» T» h emele 
comment total — key Value Tine 
> product amı {10 fields} )bject 
Enc u 22 (10 fields) 
Vans 四 (3)3 (10 fields} 
> B config zz (44 {10 fields} 
= (5)5 {10 fields ) 
© (6)6 (10 fields) 
v23]07 (10 fields) 
= dd 7 
articleid 100001 string 
** content FAZAN, M RSSEO, RERA... Strinc 
= userid 1007 St 
*5 nickname ERES T. 
83 age 20 
phone 13837361114 st 
** createdatetime new Date() 
== likenum 222 
53 state null 
Logs 
3-76 ”查看 集合 comment 中 新 插入 的 文档 
8. 更 新 文档 


选中 数据 库 articledb 下 的 集合 comment, 右 击 并 选择 Update Documents 选项 ,弹出 
New Shell 窗口 ,添加 需要 更 新 的 文档 内 容 , 如 图 3-77 所 示 。 

选中 并 右 击 图 3-77 中 的 “db.getCollectio…”. 单 击 Re-execute Query 选项 ,执行 查询 并 
更 新 操作 ,控制 台 输 出 执行 操作 的 日 志 内 容 , 如 图 3-78 所 示 。 

在 图 3-78 中 ,Updated 1 existing record(s) 表 示 只 有 一 个 文档 执行 更 新 操作 。 通 过 双 
数据库 articledb 下 的 集合 comment, 发 现 该 集合 中 的 第 7 个 文档 中 字段 content 中 的 值 


E 
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New Connect 


V * db. getCollectio… 


x 


7017 Bl articledb 


图 3-77 添加 需要 更 新 的 文档 


发 生 了 变化 ,由 原来 的 内 容 * 下 午 两 


辐射 " 变 成 “吃饭 前 ， 
图 3-79 所 示 。 


& Robo3T - 1.3 


Swim 
Iv E New Connection (4) 
System 
v B articledb 
Y F Collections (3) 
> E comment 
comment total 
product. 
> ? Functions 
> F Users 
> B config 


Logs 


先 喝 一 杯 水 或 一 碗 汤 ,可 减少 饭量 ,对 控制 体重 有 明显 的 帮助 ”， 


File View Options Window Help 


图 3-78 ”控制 台 输 出 的 日 志 内 容 


的 时 候 , 冲 一 杯 绿 茶 给 自己 . 既 提 神 醒 脑 ,又 能 抵抗 
具体 如 


9 dt. ge1Collection(= x 


f New Connection 国 192.158.121. 0917 B articledb 


coment (B 0.001 sec. «L9 T 9 ]» [aim o [e 
Key Value Type 
ETO (10 fields} 
» wg (10 fields} 
四 gs (10 fields) 
> 四 44 (10 fields} 
(95 {10 fields} 
a (696 (10 fields} 
v9 (77 


(10 fields} Object 
ES id 7 r 
100001 


1007 
BMT 

$5 age 20 
13837361114 
new Date0 
222 

null 


3-79 ”控制 台 输出 的 日 志 内 容 
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9. 删除 文档 


选中 数据 库 articledb 中 集合 comment 下 的 第 7 个 文档 , 右 击 并 选择 Delete Documents 
选项 ,弹出 Delete Document 对 话 框 ; 单 击 Yes 按钮 ,删除 集合 comment 中 的 _id 为 7 的 文 


档 , 如 


图 3-80 所 示 。 通 过 双击 数据 库 articledb 下 的 集合 comment, 发 现 该 集合 中 只 有 6 个 


文档 , 则 说 明 我 们 成 功 删除 了 文档 ,具体 如 图 3-81 所 示 。 


& Robo3T-13 


CE IOLE 


~ E New Connection (4) 


File View Options Window Help 


V do. getCellectionC 


File View Options Window Help 
BEEF. 


Iv E New Connection (4) 


] d. setcollecti on C- 


> § System 1 
a i Kev Connection 2.1 7017 8 
~v rr CEEE 
> f comment E comment @ 0.001 sec. 1 2. Ld » [lgim 5 [e 
> 梧 comment total [Key Value 
? © product > 名 (1)1 {10 fields } 
> ? Functions » ug 110 fields j 
(P7 Users »egs {10 fields ] 
» B config > @ (4)4 {10 fields ] 
> @(5)5 (10 fields } 
> w (56 (10 fields j Object 
^s 079) ExpandRecursively — Alt«Right port 
Collapse Recursively — Alt«Left & Delete Document x 
Edit Document... T" T 
Vcl o9 Delete locument with id: 
Insert Document... © 
Copy JSON ma [w 
Logs 
图 3-80 删除 文档 的 步骤 
& Robo3T-13 - o x 


> J System - - 一 
过 M Tev Connection Œ 292.198.121.134:2T017 BB articledb 
~ ! Collections (3) 
> M comment. E coment @ 0.001 sec. 4| 0 so J> Baje 
> E comment total [key Value m 
》 product > uni (10 fields } Object 
zo BC > @ (232 (10 fields ) Object 
Abasi > a (33 (10 fields ) Object 
> B config > wi (4)4 (10 fields } Object 
> æ (5)5 (10 fields } Object 
> © (6)6 {10 fields } Object 
Logs 
图 3-81 查看 集合 comment 中 的 文档 


3.11 安全 与 访问 控制 


默认 情况 下 ,MongoDB 服务 启动 


— 


Z= íT 


时 是 没有 启用 用 户 访问 权限 控制 的 ,也 就 是 说 ， 


在 MongoDB 本 机 服务 器 上 都 可 以 随意 连接 MongoDB, 从 而 进行 各 种 操作 ,并 且 MongoDB 
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不 会 对 连接 的 客户 端 进行 用 户 验证 ,因此 可 以 想象 这 是 非常 危险 的 。 为 了 提高 MongoDB 
数据 库 中 数据 的 安全 性 ,我 们 需要 开启 用 户 访问 控制 ( 即 用 户 验证 )。 本 节 , 我 们 将 详细 讲解 
如 何 开启 用 户 访问 控制 。 


3.11.1 用 户 访问 控制 
1. 创建 管理 员 用 户 


启用 用 户 访 问 控制 之 前 , 必须 确保 数据 库 admin 中 拥有 userAdmin 或 
userAdminAnyDatabase 角色 的 用 户 ( 即 管理 员 用 户 )。 因 此 ,我 们 需要 先 查 看 数据 库 admin 
中 是 否 拥有 userAdmin 或 userAdminAnyDatabase 角色 的 用 户 。 首 先 , 执 行 mongo 192. 
168.121.134: 27017 命令 (由 于 在 启动 MongoDB 服务 时 指定 了 主机 IP 地 址 和 端口 号 ,因此 
登录 mongo shell 时 需要 在 mongo 后 面 加 上 主机 IP 和 端口 号 ) 进 入 mongo shell 界面 ;然后 
执行 use admin 命令 切换 到 数据 库 admin; 执 行 show users 命令 查看 数据 库 admin 中 的 用 
户 列 表 , 具 体 如 图 3-82 所 示 。 


21.134;27017/test?compressors=disabled&gssapiServiceName=mongodb 
”: UUID("ac6a07a9-ce7b-4cb1-acd1- 3053334bea11*) ] 


Teplicit ssion: Session 
MongoD®, server version: 4.2. 
r has startup warnings " ; 
3020-02-1513:30:00-1/4:0800 I CONTROL finian isteng . 
2020-02-15T13:50:00:474«0800 I CONTROL Linitandlisten] ** WARNING: Access control is not enabled for the datab 


2020- 02-15T13:50:00.474«0800 I CONTROL [initandlisten] ** Read and write access to data and configura 
tion is unrestricted. 

2020-02-15T13:50:00. 
2020-02-15713:50:00. 
2020-02-15T1 00.474«0800 I CONTROL 


CONTROL [initandlisten: 
CONTROL  [initandlisten, 
initandlisten] ** WARNING: /sys/kernel/mm/transparent. hugepage/enabled 


is 'always" 
2020-02-15113:50:00-474«0800 I CONTROL  [initandlisten] ** We suggest setting it to ‘never’ 
CONTROL [initand]isten 
LP n CONTROL [initandlisten] ** WARNING: /sys/kernel/mm/transparent. hugepage/defrag 
2520°0%YSTi3: 50:00.474+0800 r coWTROL [initandlisten] ** We suggest setting it to never" 
2020-02-15713:50:00.474«0800 I CONTROL Linitandlisten 


Enable MongoDB's free cloud-based monitoring service, which will then receive and display 
metrics about your deployment (disk utilization, CPU, operation statistics, etc). 


The monitoring data will be available on a MongoDB website with a unique URL accessible to you 
and anyone you share the URL with. MongoDB may use this information to make product 
improvements and to suggest MongoDB products and deployment options to you. 


To enable free monitoring, run the following command: db.enabletreewonitoringO 
To permanently disable this reminder, run the following command: db.disablerreeMonitoringO 


Ready Ssh2:AES-256-CTR — 37, 3 37Rows, 112Cols VTI00 CAP NUM 


图 3-82 ”查看 数据 库 admin 中 的 用 户 


从 图 3-82 中 可 以 看 出 ,执行 show users 命令 后 ,没有 返回 结果 , 则 说 明 数 据 库 admin 中 没 
有 任何 用 户 。 因 此 我 们 需要 创建 管理 员 用 户 itcastAdmin, 设 置 userAdminAnyDatabase 角色 ， 
用 于 管理 MongoDB 数据 库 中 所 有 用 户 和 角色 .通过 执行 db.createUser() 命 令 创建 管理 员 用 
户 ,具体 如 下 : 


»db.createUser((user:"itcastAdmin",pwd:passwordPrompt(),roles: [(role: 
"userAdminAnyDatabase", db: "admin")]])) 

Enter password: 

Successfully added user: | 


"user" : "itcastAdmin", 
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"role" : "userAdminAnyDatabase", 
"db" : "admin" 

h 

"readWriteAnyDatabase" 


) 


从 上 述 返 回 结果 Successfully added user 可 以 看 出 ,已 经 成 功 添加 了 管理 员 用 户 
itcastAdmin( 注 意 : 执行 上 述 命令 时 , 须 在 “Enter Passwork:” 处 输入 设置 的 密码 )。 

四 多 学 一 招 : MongoDB 数据 库 的 内 置 角色 及 相关 权限 说 明 

MongoDB 提供 了 一 系列 的 内 置 角色 ,下 面 , 我 们 通过 一 张 表 来 介绍 MongoDB 数据 库 
的 内 置 角色 及 相关 权限 ,具体 如 表 3-4 所 示 。 


表 3-4 内 置 角色 及 其 权限 说 明 


内 置 角色 权限 说 明 
root 只 可 以 用 于 admin 数据 库 , 该 角色 具有 超级 权限 
read 可 以 读 取 指定 数据 库 中 任何 数据 
readWrite 可 以 读 写 指定 数据 库 中 任何 数据 ,包括 创建 、 重 命名 及 删除 集合 
readAnyDatabase 可 以 读 取 所 有 数据 库 中 任何 数据 (除数 据 库 config 和 local 外 ) 


readWriteAnyDatabase 可 以 读 写 所 有 数据 库 中 任何 数据 (除数 据 库 config 和 local 外 ) 

可 以 读 取 指 定数 据 库 以 及 对 数据 库 进行 清理 修改、 压缩 、 获 取 统 计 信息 、 执 
行 检查 等 操作 

可 以 读 取 任 何 数 据 库 以 及 对 数据 库 进行 清理 、 修 改 、 压 缩 、 获 取 统 计 信 息 、 执 
行 检查 等 操作 (除数 据 库 config 和 local 外 ) 


dbAdmin 


dbAdminAnyDatabase 


clusterAdmin 可 以 对 整个 集群 或 数据 库 系 统 进行 管理 操作 
允许 用 户 向 system.users 集合 写 信 .可 以 对 指定 数据 库 进 行 创建 .删除 操作 
userAdmin A 
和 管理 用 户 


userAdminAnyDatabase 只 用 于 admin 数据 库 中 ,赋予 用 户 所 有 数据 库 的 userAdmin 权限 


2. 开启 用 户 访 问 控 制 


MongoDB 使 用 基于 角色 的 访问 控制 (Role-Based Access Control, RBAC) 来 管理 用 户 
对 MongoDB 服务 的 访问 , 即 通过 对 用 户 授予 一 个 或 多 个 角色 来 控制 用 户 访 问 数据 库 资 源 
的 权限 和 对 数据 库 操作 的 权限 。 在 MongoDB 未 对 用 户 分 配角 色 之 前 ,用 户 是 无 法 连接 并 
访问 MongoDB 的 。 我 们 可 以 在 MongoDB 服务 启动 时 ,添加 参数 --auth, 开 启用 户 访问 控 
制 ,也 可 以 在 启动 MongoDB 服务 的 配置 文件 中 ,添加 参数 “authorization: enabled”, 开 启用 
户 访问 控制 。 

本 书 演示 在 启动 MongoDB 服务 的 配置 文件 mongod.conf 中 ,添加 参数 “authorization: 
enabled” 开 启用 户 访问 控制 (注意 : 添加 之 前 需 关闭 MongoDB 服务 ) ,具体 内 容 如 下 : 
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当 在 配置 文件 mongod. conf 中 添加 完 参数 “authorization: enabled” 后 ,首先 重启 
MongoDB 服务 ,然后 执行 mongo 192.168.121.134:27017 命令 进入 mongo shell, 接 着 执行 
use admin 命令 切换 到 数据 库 admin, 再 执行 db.auth("itcastAdmin", passwordPrompt()) 
命令 进行 用 户 验 证 ,输入 密码 123456. 若 验 证 通过 则 返回 1, 反 之 返回 “Error: 
Authentication failed.0”, 具 体 如 下 : 


从 上 述 返 回 结果 1 可 以 看 出 ,管理 员 用 户 itcastAdmin 已 成 功 通过 验证 。 


3. 使 用 Robo 3T 连接 MongoDB 


双击 Robo 3T 工具 ,弹出 MongoDB Connection 窗口 , 单 击 Connect 按钮 ,连接 
MongoDB. ,弹出 Error 报错 窗口 ,如 图 3-83 所 示 。 
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& Error x 


e Cannot connect to the MongoDB at 
192.168.121.134:27017. 


Error: 
Failed to execute "listdatabases" command. 


3-83 Robo 3T 连接 MongoDB 时 报错 


从 图 3-83 中 可 以 看 出 ,Robo 3T 连接 MongoDB 时 出 现 了 错误 ,原因 是 我 们 开启 了 用 户 
访问 控制 ,连接 Mongo 需要 通过 验证 才 可 进行 。 单 击 OK 按钮 ,关闭 报错 窗口 ,返回 
Connections Settings 对 话 框 , 在 "Connection” 选 项 卡 下 添加 IP. 主机 地 址 和 端口 号 ,如 图 3-84 所 
示 ; 单 击 Authentication 选项 卡 标签 , 勾 选 “Perform authentication” 复 选 框 ,在 Database 处 
添加 数据 库 名 称 ,User Name 处 添加 管理 员 的 用 户 名 ,Password 处 添加 管理 员 的 登录 密码 ， 
具体 配置 如 图 3-85 所 示 。 


Œ Connection Settings 


Connection | Authentication SSH SSL ^ Advanced 


Type: Direct Connection S 
Nane: New Connection 
Address: |192. 168. 121. 134 : [27017 


Specify host and port of MongoDB server. Host can be 
either IPv4, IPv6 or domain name. 


[rom SR |Inport connection details from MongoDB SRV connect" 


o Test [we | Cancel 
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Œ Connection Settings 


Connection | Authentication | SSH SSL Advanced 


v] Perform authentication 


Database admin 


The admin database is unique in MongoDB. 
Users with normal access to the adnin database 
have read and write access to all databases. 


User Name itcastAdnin 
Password 123456 Ce] 
Auth Mechanism |SCRAN-SHA-1 z 


o Test Save Cancel 


图 3-85 配置 登录 认证 
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单 击 图 3-85 中 的 Save 按钮 ,返回 MongoDB Connections 窗口 ,MongoDB 连接 的 最 终 
配置 如 图 3-86 所 示 。 单 击 Connect 按钮 ,连接 MongoDB ,连接 成 功 的 界面 如 图 3-87 所 示 。 


si MongoDB Connections x 


Create, edit, remove, clone or reorder connections via drag'n'drop. 


Nane Address Attribute: Auth. Database / User 


国 New Connection 192.168.121.134:27017 9 admin / itcastAdmin 


Comi] 


Æ 3-86 MongoDB 连接 的 最 终 配置 


6 Robo3T - 1.3 
File View Options Window Help 


B-ui»mu 

|v 国 New Connection (4) je Welcome x] 

Y | System ~ 
died Need a more powerful GUI? Try Robo [i 

> 目 articledb 

» B config 


Logs 


Æ 3-87 MongoDB 连接 成 功 的 界面 


3.312 ”用户 管理 操作 

在 前 面 小 节 中 ,我 们 已 经 开启 了 MongoDB 的 用 户 访问 控制 。 下 面 ,我 们 将 使 用 管理 员 
用 户 来 管理 用 户 ( 普 通用 户 ) 及 其 角色 ,例如 ,创建 用 户 查看 用 户 信息 、 添 加 用 户 角 色 、 修 改 
用 户 信息 、 删 除 用 户 角 色 .修改 用 户 密码 以 及 删除 用 户 等 操作 。 

1. 创建 用 户 


使 用 管理 员 用 户 itcastAdmin 在 数据 库 admin 中 创建 一 个 基于 角色 read 的 用 户 
itcastUser, 并 且 该 用 户 只 具有 admin 数据 库 的 read 权限 .具体 如 下 : 


»db.createUser((user:"itcastUser",pwd:passwordPrompt (), roles: [(role:"read", 
db:"admin")])) 
Enter password: 
Successfully added user: | 
"user" : "itcastUser", 


"roles" : [ 
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从 上 述 返回 结果 Successfully added user 可 以 看 出 ,已 经 成 功 添加 普通 用 户 
itcastUser, 注 意 上 面 输入 的 密码 是 123456 ,使 用 passwordPrompt() 方 法 与 各 种 用 户 身 份 验 
证 /管理 /命令 进行 结合 .使 用 提示 来 输入 密码 ,从 而 提高 密码 的 安全 性 。 


2. 查看 用 户 信息 
使 用 管理 员 用 户 itcastAdmin 查看 普通 用 户 itcastUser 的 信息 ,具体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 ,执行 查看 用 户 信息 命令 ,返回 普通 用 户 itcastUser 的 基本 信 
息 , 其 中 , mechanisms 表示 MongoDB 使 用 的 安全 认证 机 制 , 这 里 使 用 的 安全 认证 机 制 是 
SCRAM-SHA-1 和 SCRAM-SHA-256。 若 要 查看 该 用 户 的 权限 , 则 可 以 执行 db.getUser 
("itcastUser", {showPrivileges: true)) 命 令 , 这 里 我 们 不 做 演示 ,读者 可 自行 操作 。 


3. 添加 用 户 角 色 


使 用 管理 员 用 户 itcastAdmin 为 普通 用 户 itcastUser 添加 readWrite 角色 ,并 执行 查看 
用 户 命令 来 检查 添加 角色 是 否 成 功 ,具体 如 下 : 
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从 上 述 返 回 结果 可 以 看 出 ,已 经 成 功 为 普通 用 户 itcastUser 添加 了 readWrite 角色 。 
4. 修改 用 户 信息 


使 用 管理 员 用 户 itcastAdmin 将 普通 用 户 itcastUser 的 readWrite 角色 修改 为 
readAnyDatabase, 并 执行 查看 用 户 命令 来 检查 角色 是 否 修改 成 功 ,具体 如 下 : 


从 上 述 返回 结果 可 以 看 出 ,已 经 成 功 将 普通 用 户 itcastUser 的 readWrite 角色 修改 为 
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readAnyDatabase 角色 。 
5. 删除 用 户 角 色 


使 用 管理 员 用 户 itcastAdmin 删除 普通 用 户 itcastUser 中 的 readAnyDatabase 角色 ,并 
执行 查看 用 户 命令 来 检查 删除 角色 是 否 成 功 ,具体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 ,已 经 成 功 删除 了 普通 用 户 itcastUser 的 readAnyDatabase 
角色 。 


6. 修改 用 户 密码 


使 用 管理 员 用 户 itcastAdmin 修改 普通 用 户 itcastUser 的 密码 ,修改 为 itcastuser, 并 执 
行 验证 命令 验证 使 用 新 密码 是 否 可 以 通过 验证 ,具体 如 下 : 


从 上 述 返回 结果 1 可 以 看 出 ,已 经 成 功 将 普通 用 户 itcastUser 的 密码 修改 为 


itcastuser。 
7. 删除 用 户 


使 用 管理 员 用 户 itcastAdmin 删除 普通 用 户 itcastUser, 并 执行 查看 用 户 的 命令 查看 用 
P! itcastUser 是 否 被 删除 (注意 ,要 使 用 管理 员 用 户 itcastAdmin) ,具体 如 下 : 
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从 上 述 返 回 结 果 可 以 看 出 ,已 经 成 功 删 除 普 通用 户 itcastUser。 


3.2 本章 小 结 


本 章 讲解 了 MongoDB 数据 库 操作 相关 的 知识 。 首 先 介绍 MongoDB 的 部 署 ,读者 可 以 
在 Windows 平台 和 Linux 平 台 上 部 署 MongoDB; 其 次 介绍 MongoDB 数据 库 、 集 合 以 及 文 
档 的 相关 操作 ,读者 可 以 掌握 如 何 操作 MongoDB 数据 库 、 集 合 以 及 文档 ;接着 介绍 使 用 
Java,Python 语言 以 及 Robo 3T 工具 来 操作 MongoDB .读者 可 以 掌握 使 用 Java, Python if 
TAX Robo 3T 工具 来 操作 MongoDB, 从 而 可 以 灵活 地 使 用 编程 语言 或 工具 操作 
MongoDB 数据 库 ; 最 后 介绍 MongoDB 的 安全 与 访问 控制 ,读者 可 以 通过 开启 用 户 访 问 控 
制 ( 即 用 户 验证 ) ,提高 MongoDB 数据 库 中 数据 的 安全 性 。 


3.13” 课 后 习题 


一 、 填 空 题 


1. MongoDB 是 一 个 、 跨 平台 的 数据 库 。 

2. 程序 用 于 启动 MongoDB 服务 器 。 

3. MongoDB 服务 的 端口 号 是 E 

4. 是 使 用 不 同 的 管道 阶段 操作 器 进行 不 同 聚 合 操作 。 
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5. MongoDB 提供 操作 来 进行 聚合 操作 。 
二 、 判 断 题 


1. 针对 不 同 的 操作 系统 平台 ,MongoDB 的 部 署 均 相 同 。 

2. MongoDB 中 管道 操作 符 的 类 型 单一 。 

3. Map-Reduce 操作 有 两 个 阶段 , 即 Map 和 Reduce 阶段 。 

4. 默认 情况 下 ,MongoDB 服务 启动 运行 时 是 启用 用 户 访 问 权 限 控制 的 。 
5. Robo 3T 是 一 个 路 平台 的 MongoDB GUI 客户 端 管理 工具 。 


三 、 选 择 题 
1. 下 列 命令 中 ,( ) 可 以 用 于 创建 MongoDB 数据 库 。 
A. create B. show C. use D. db 
2. 下 列 选项 中 ,( ) 不 属于 管道 操作 符 。 
A. $ group B. $ limit C. $ match D. $ and 


3. 下 列 说 法 中 ,关于 MongoDB 索引 说 法 正确 的 是 ( s 
A. 索引 存储 着 集合 中 全 部 的 文档 
B. 索引 项 的 排序 支持 有 效 的 等 值 匹配 和 基于 范围 的 查询 操作 
C. 索引 分 为 单字 段 索引 和 复合 索引 两 种 
D. 索引 是 一 种 特殊 的 数据 结构 , 即 采用 B-Tree 数据 结构 


四 、 简 答题 
简 述 MongoDB 索引 的 6 种 类 型 。 
五 、 操 作 题 


1. 通过 MongoDB 的 Java API 编程 ,实现 以 下 操作 : 

(1) 创建 集合 。 

(2) 查看 集合 。 

G) 在 集合 中 插入 文档 。 

(4) 查看 集合 中 的 文档 。 

(5) 删除 集合 中 的 指定 文档 。 

2. 通过 MongoDB GUI 客户 端 管理 工具 ,实现 以 下 操作 : 
CD 创建 .删除 数据 库 。 

(2) 创建 查看、 删除 集合 。 

(3) 插入 、 查 看 、 更 新 文档 。 


一 一 一 一 一 
- o o o o 


第 4 音 
MongoDB 副 本 集 


学 习 目标 

* 了 解 MongoDB 副本 集 

* 熟悉 MongoDB 副本 集成 员 
。 掌握 MongoDB 副本 集 部 署 
* 掌握 MongoDB 副本 集 操 作 
。 理解 副本 集 机 制 


在 之 前 的 章节 中 ,我 们 学 习 了 MongoDB 的 基本 概念 ,并 通过 一 台 服 务 器 部 署 
MongoDB( 独 立 模式 ) 进 行 相关 操作 。 独 立 模式 可 以 简单 且 快 速 地 构建 MongoDB 数据 库 
系统 ,然而 独立 模式 存在 雌 端 , 即 一 旦 MongoDB 发 生 宕 机 ,将 会 面临 数据 丢失 的 风险 ,这 在 
生产 环境 中 是 不 允许 发 生 的 ,此 时 我 们 可 以 利用 MongoDB 提供 的 高 可 用 机 制 , 即 复制 。 
MongoDB 支持 两 种 复制 类 型 : 传统 的 主 /从 复制 和 副本 集 。 副 本 集 可 以 理解 为 传统 主 / 从 
复制 的 一 种 复杂 形式 ,支持 自动 故障 恢复 功能 ,拥有 更 高 的 可 用 性 ,是 MongoDB 部 署 中 的 
一 种 推荐 方法 。 因 此 ,本 章 将 针对 MongoDB 副本 集 进行 详细 介绍 和 部 署 。 


4.1 副本 集 概述 


副本 集 Creplica set) 是 一 组 MongoDB 实例 保持 其 相同 数据 集 的 集群 ,由 一 个 主 
(primary) 服 务 器 和 多 个 副本 (secondary) 服 务 器 构成 。 通 过 复制 (replication ) 将 数据 的 更 
新 由 主 服务 器 推送 到 其 他 副本 服务 器 上 ,在 一 定 的 延迟 之 后 ,达到 每 个 MongoDB 实例 维护 
相同 的 数据 集 副 本 。 
副本 集 通过 维护 元 余 的 数据 库 副本 、 读 写 分 离 和 故障 自动 转移 的 功能 ,摆脱 数据 库 在 使 
用 过 程 中 出 现 的 环境 故障 影响 ,是 所 有 生产 环境 部 署 的 基础 。 
接 下 来 ,我 们 针对 副本 集 的 功能 进行 详细 讲解 。 
。 数据 的 元 余 : 副本 集 可 以 确保 副本 结 点 与 主 结 点 数据 的 更 新 ,以 防止 单个 数据 库 服 
务 宕 机 造成 数据 丢失 的 问题 。 这 些 副 本 结 点 可 以 和 主 结 点 位 于 同一 数据 中 心 或 出 
于 安全 考虑 分 布 于 其 他 数据 中 心 。 

。 自动 故障 转移 : 副本 集 没有 固定 的 主 结 点 ,整个 集群 会 选举 出 一 个 主 结 点 , 当 这 个 
主 结 点 不 能 正常 工作 时 ,会 选举 出 一 个 副本 结 点 切换 为 主 结 点 ,客户 端 会 连接 到 这 
个 新 的 主 结 点 ,并 且 数 据 和 应 用 程序 都 将 保持 可 用 。MongoDB 副本 集 实现 这 样 的 
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主 / 副 本 切换 是 自动 的 ,因此 副本 集 是 保证 MongoDB 高 可 用 的 基础 。 
* 读 写 分 离 : 副本 集 可 以 将 读 取 请 求 分 流 到 所 有 副本 上 ,以 减轻 主 结 点 的 读 写 压 力 。 


4.2. 副本 集成 员 


一 般 而 言 ,副本 集 有 三 个 主要 成 员 主 结 点 (primary)、 副 本 结 点 (secondary)、 仲 裁 结 点 
(Carbiter) 。 下 面 ,我 们 通过 一 张 图 介绍 副本 集成 员 的 架构 ,具体 如 图 4-1 所 示 。 


客户 端 程序 
驱动 器 
读 


写 


主 结 点 


副本 结 点 仲裁 结 点 


4-1 副本 集成 员 的 架构 


从 图 4-1 副本 集成 员 架 构 可 以 看 出 ,客户 端 程序 (client application) 通 过 驱动 器 
(driver) 连 接 副 本 集 主 结 点 (primary) 进 行 读 写 操作 ,当主 结 点 数据 副本 发 生变 化 时 ,副本 结 
点 (secondary) 通 过 复制 (replication) 同 步 主 结 点 的 数据 副本 ,使 副本 集中 副本 结 点 与 主 结 
点 存储 相同 数据 副本 。 副 本 集中 的 各 结 点 还 会 通过 传递 心跳 信息 (heartbeat) 来 检测 各 自 的 
健康 状态 。 当 主 结 点 故障 时 ,拥有 投票 权 的 副本 结 点 和 仲裁 结 点 Carbiter) 会 触发 一 次 新 的 
选举 操作 ,并 从 副本 结 点 中 选举 出 新 的 主 结 点 ,以 确保 副本 集 正常 运行 。 

接 下 来 ,我们 对 副本 集中 的 三 个 主要 成 员 做 详细 介绍 。 


1. 主 结 点 


主 结 点 是 副本 集中 负责 处 理 客户 端 请 求 和 读 写 数据 主要 成 员 。 主 结 点 通过 oplog( 操 
作 上 日志) 记录 所 有 操作 。 副 本 集中 有 且 只 有 一 个 主 结 点 ,如 果 当 前 主 结 点 不 可 用 , 则 会 从 副 
本 结 点 中 选举 出 新 的 主 结 点 。 


2. 副本 结 点 


副本 结 点 定期 轮 询 主 结 点 来 获取 oplog 记录 的 操作 内 容 , 然 后 对 自己 的 数据 副本 执行 
这 些 操作 ,从 而 保证 副本 结 点 的 数据 副本 与 主 结 点 保持 一 致 。 副 本 集中 可 以 有 一 个 或 多 个 
副本 结 点 。 当 主 结 点 宕 机 时 ,副本 集会 根据 副本 结 点 的 优先 级 进行 选举 ,确定 哪个 副本 结 点 


3. 仲裁 结 点 
仲裁 结 点 不 会 同步 主 结 点 的 数据 副本 ,也 不 会 被 选举 为 主 结 点 , 它 主 要 是 参与 选举 投 
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票 。 由 于 仲裁 结 点 没有 访问 压力 .比较 空闲 ,因此 仲裁 结 点 需要 的 资源 很 小 。 当 副本 集中 成 
员 个 数 为 偶数 时 ,建议 添加 一 个 仲裁 结 点 ,防止 选举 新 的 主 结 点 过 程 中 出 现 票 数 一 致 ,导致 
无 法 选举 出 新 的 主 结 点 ,使 副本 集 处 于 只 读 状态 无 法 写 人 数据 。 

四 多 学 一 招 : MongoDB 副本 集成 员 数 与 oplog 

MongoDB 官网 建议 当 副 本 集成 员 个 数 大 于 2 时 ,推荐 副本 集成 员 个 数 为 奇数 ,而 不 使 
用 仲裁 结 点 。 从 MongoDB 3.0 版 本 起 ,副本 集 可 以 多 达 五 十 名 成 员 , 最 多 7 个 参与 主 结 点 
选举 投票 ,并 且 其 他 成 员 不 得 拥有 投票 权 。 

oplog 是 一 个 特殊 的 固定 集合 , 它 保 存 了 副本 集 主 结 点 中 所 有 的 数据 变化 记录 ,所 有 副 
本 集成 员 ( 除 仲裁 结 点 ) 都 在 local.oplog.rs 集合 中 包含 一 个 oplog 的 副本 ,每 个 副本 结 点 的 
oplog 都 会 保持 与 主 结 点 的 oplog 完全 一 致 的 状态 (可 能 会 有 一 些 延 迟 ) 。 


4.3 部 署 副 本 集 


4.3.1 环境 准备 


按照 官方 推荐 方案 ,我 们 搭建 一 个 三 成 员 的 副本 集 , 这 个 副本 集 由 一 个 主 结 点 和 两 个 副 
本 结 点 组 成 。 在 生产 环境 中 我 们 会 使 用 三 台 实体 计算 机 进行 部 署 ,不 过 出 于 学 习 的 角度 ,我 
们 这 里 采用 三 台 虚 拟 机 进行 部 署 (创建 虚拟 机 的 相关 操作 请 参考 本 书 资源 中 提供 的 环境 配 
置 文档 ) ,这 样 可 以 更 加 方便 、 快 捷 地 实现 副本 集 的 部 署 ,实体 机 与 虚拟 机 中 部 署 副 本 集 的 步 
又 是 相同 的 。 

开展 副本 集 部 署 之 前 ,我 们 先 规划 各 服务 器 的 基本 信息 及 角色 分 配 , 具 体 如 表 4-1 
所 示 。 


表 4-1 服务 器 基本 信息 及 角色 分 配 


虚拟 机 名 称 IP 地 址 成 员 角 色 主机 名 (hostname) 
NoSQL 1 192.168.121.134 主 结 点 nosql01 
NoSQL 2 192.168.121.135 副本 结 点 nosql02 
NoSQL 3 192.168.121.136 副本 结 点 nosql03 


接 下 来 ,在 实际 部 署 MongoDB 副本 集 时 ,我 们 将 根据 表 4-1 中 各 服务 器 的 角色 分 配 情 
况 进 行 相关 配置 。 

实现 MongoDB 副本 集 前 , 需 参 照 本 书 资源 中 提供 的 环境 配置 文档 完成 环境 的 配置 。 

按照 第 3.1.2 节 介 绍 的 方式 ,分 别 在 三 台 服 务 器 上 创建 user. mongo 用 户 , 并 将 目录 
/opt/servers/mongodb_demo/ 更 改 为 用 户 user. mongo 的 权限 ,后 续 我 们 将 使 用 该 用 户 进 
行 MongoDB 副本 集 安装 与 启动 ,具体 效果 如 图 4-2、 图 4-3 和 图 4-4 所 示 。 

从 图 4-2、 图 4-3 和 图 4-4 中 可 以 看 出 ,三 台 服 务 器 均 已 切换 到 user_mongo 用 户 , 并 且 
/opt/servers 目录 下 的 mongodb demo 文件 夹 修改 为 用 户 user_mongo 权限 。 

在 三 台 服 务 器 目录 /opt/servers/mongodb_demo/ 下 创建 目录 /replicaset/data/ 和 目录 
/replicaset/logs/ ,用 于 存放 MongoDB 副本 集 的 数据 和 MongoDB 副本 集 的 日 志文 件 ,具体 
内 容 如 下 。 
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图 4-3 服务 器 nosql02 
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(1) 创建 存放 MongoDB 副本 集 数 据 的 目录 .具体 命令 如 下 : 


Smkdir -p /opt/servers/mongodb demo/replicaset/data/ 


(2) 创建 存放 MongoDB 副本 集 日 志 的 目录 .具体 命令 如 下 : 


Smkdir -p /opt/servers/mongodb demo/replicaset/logs/ 


(3) 在 MongoDB 副本 集 日 志 的 目录 下 创建 日 志文 件 ,具体 命令 如 下 : 


Stouch /opt/servers/mongodb demo/replicaset/logs/mongodb.log 


至 此 ,关于 用 户 的 创建 `.MongoDB 副本 集 数据 的 创建 及 日 志文 件 的 创建 工作 完成 。 
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43.2 副本 集 的 安装 与 启动 
环境 准备 工作 完成 后 ,下 面 开 始 副本 集 的 安装 与 启动 ,具体 步骤 如 下 。 
1. 安装 副本 集 


MongoDB 副本 集 由 多 个 MongoDB 的 不 同 角色 组 建 而 来 ,因此 部 署 MongoDB 副本 集 
的 基础 仍 是 部 署 MongoDB。 

将 MongoDB 安装 包 “mongodb-linux-x86_64-rhel70-4.2.2.tgz? 通 过 "sudo rz” 命令 上 传 
到 服务 器 nosql01 的 /opt/software/ 目 录 下 ,并 将 安装 包 通 过 “sudo chown user. mongo: 
user mongo /opt/software/mongodb-linux-x86_64-rhel70-4.2.2.tgz” 命 令 修改 为 用 户 user 
mongo 权限 ,具体 效果 如 图 4-5 所 示 。 
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从 图 4-5 中 可 以 看 出 ,成 功 将 MongoDB 安装 包 上 传 到 目录 /opt/software/ ,并且 修改 
MongoDB 安装 包 的 用 户 权 限 为 user_mongo。 

通过 解压 MongoDB 安装 包 的 方式 安装 MongoDB, 将 MongoDB 安装 包 解 压 到 目录 
/ opt/servers/mongo, demo/replicaset/ F ,具体 命令 如 下 : 


Star -zxvf /opt/software/mongodb-linux-x86 64-rhel70-4.2.2.tgz -C 
J/opt/servers/mongodb demo/replicaset/ 


执行 上 述 命令 ,完成 对 MongoDB 安装 包 的 解压 ,MongoDB 安装 包 解 压 后 文件 夹 名 称 
较 长 不 便于 使 用 ,因此 我 们 对 MongoDB 文件 夹 重 命名 ,具体 命令 如 下 : 


Smv mongodb-linux-x86 64-rhel70-4.2.2/ mongodb 


需要 注意 的 是 ,上 述 重 命名 命令 必须 在 /opt/servers/mongodb_demo/replicaset/ 目 录 
下 进行 操作 。 

至 此 ,我 们 完成 了 服务 器 nosql01 上 MongoDB 的 安装 ,具体 效果 如 图 4-6 所 示 。 

从 图 4-6 中 可 以 看 出 , replicaset 目录 下 包含 data (数据 )、logs (日 志 ) 和 mongodb 
(MongoDB 安装 目录 ) 文 件 夹 , 并 且 这 些 文件 夹 的 用 户 权 限 都 是 user_mongo。 

将 服务 器 nosql01 中 /opt/servers/mongodb_demo/replicaset/ 目 录 下 的 所 有 内 容 分 发 
到 服务 器 nosql02 和 服务 器 nosql03 上 ,具体 命令 如 下 : 
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User mongo user mongo 6 Apr 23 09:10 data 
ser mongo user mongo 24 Apr 23 09:10 logs 
r mongo user mondo 129 Apr 23 09:11 mongodb 


[user mongo 


Ready ssh2: AES-256-CTR. 6, 34 6 Rows, 62 Cols VT100 
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$scp -r /opt/servers/mongodb demo/replicaset/ user mongoenosq102: 
/opt/servers/mongodb demo/ 
$scp -r /opt/servers/mongodb demo/replicaset/ user mongo68nosq103: 


/opt/servers/mongodb demo/ 


在 执行 上 述 命令 时 ,会 提示 是 否 连接 (continue connecting (yes/no)?) 和 输入 目标 服务 器 中 
user mongo 用 户 的 密码 (user_mongo@nosql03s password: ) ,依次 按照 提示 输入 即 可 。 
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分 别 在 三 台 服 务 器 nosql01、 nosql02 和 nosql03 的 /opt/servers/mongodb _ demo/ 
replicaset/mongodb/bin 目录 下 以 副本 集 模式 启动 MongoDB, 这 里 以 服务 器 nosql01 为 例 
进行 操作 (如 当前 服务 器 的 MongoDB 已 启动 , 需 参照 第 3.1.2 节 结 尾 内 容 关 闭 MongoDB), 
具体 命令 如 下 : 


# 进 人 MongoDB 的 bin 目录 

$cd /opt/servers/mongodb demo/replicaset/mongodb/bin 

# 以 副本 集 模式 启动 MongoDB 

$./mongod --replSet itcast --dbpath= /opt/servers/mongodb_demo/replicaset 
/data/ --logpath=/opt/servers/mongodb_demo/replicaset/logs/mongodb.log 
--port 27017 --bind ip nosq101 --logappend --fork 


启动 MongoDB 命令 中 ,参数 replSet 指定 MongoDB 副本 集 名 称 , 同 一 副本 集 须 指定 

相同 名 称 ; 参 数 dbpath 指定 MongoDB 副本 集 数据 存放 目录 (不 能 与 其 他 MongoDB 服务 冲 
突 ) ;参数 logpath 指定 MongoDB 服务 副本 集 日 志 目 录 ; 参 数 port 指定 MongoDB 副本 集 启动 
占用 的 端口 号 (不 能 与 其 他 MongoDB 冲突 ) ;参数 bind_ip 开启 远程 连接 ,使 用 当前 服务 器 主机 
名 ;参数 logappend 指定 以 追加 的 方式 写 信 日志; 参数 fork 指定 MongoDB 后 台 启 动 。 

执行 完 上 述 命令 , 便 可 成 功 以 副本 集 模式 启动 MongoDB 服务 ,具体 效果 如 图 4-7 所 示 。 

在 图 4-7 中 出 现 “child process started successfully” 信 息 ,证 明 在 服务 器 nosql01 中 成 
功 以 副本 集 模式 启动 MongoDB 服务 。 

至 此 ,成 功 在 服务 器 nosql01 上 以 副本 集 模式 启动 了 MongoDB 目录 。 接 下 来 , 需 重复 
上 述 命 令 依 次 在 服务 器 nosql02 和 nosql03 上 分 别 以 副本 集 模式 启动 MongoDB, 注 意 启 动 
参数 bind_ip 要 根据 当前 服务 器 主机 名 进行 修改 。 
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图 4-7 以 副本 集 模式 启动 MongoDB 


4.3.3 副本 集 的 初始 化 


因为 本 章 规 划 的 副本 集 主 结 点 为 服务 器 nosql01 ,因此 初始 化 副本 集 相 关 操 作 须 在 服务 
器 nosql01 的 MongoDB 客户 端 中 执行 ,具体 操作 步骤 如 下 。 
登录 服务 器 nosql01 的 MongoDB 客户 端 ,具体 命令 如 下 : 


# 进 入 MongoDB 的 bin 目录 

$cd /opt/servers/mongodb demo/replicaset/mongodb/bin 
# 登 录 MongoDB 客户 端 

$./mongo --host nosq101 --port 27017 


上 述 登 录 MongoDB 客户 端 命令 中 ,参数 host 指定 登录 MongoDB 客户 端的 IP 地 址 
(与 启动 参数 bind. ip 相对 应 ) ;参数 port 指定 端口 号 (与 启动 参数 port 相对 应 )。 
执行 完 上 述 命令 , 便 可 成 功 登录 MongoDB 客户 端 ,具体 效果 如 图 4-8 所 示 。 
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Enable MongoDS's free cloud-based monitoring service, which will then receive and display 
metrics about your deployment (disk utilization, CPU, operation statistics, etc). 


HH 


The monitoring data will be available on a MongoDB website with a unique URL accessible to you 
and anyone you share the URL with. MongoDB may use this information to make product 
improvements and to suggest MongoDB products and deployment options to you. 


To enable free monitoring, run the i command: db.enableFreeMonitoring() 
To permanently disable this reminder, run the following command: db. disableFreeMoniroring() i 
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图 4-8 MongoDB 客户 端 
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在 图 4-8 中 出 现 命令 输入 提示 符 之 ,证 明 在 服务 器 nosql01 中 成 功 登录 MongoDB 客户 端 。 
在 MongoDB 客户 端 中 执行 副本 集 初始 化 操作 ,具体 命令 如 下 : 


执行 完 上 述 命令 ,客户 端 会 返回 初始 化 信息 , 若 信息 中 字段 “<OK ”的 值 为 1, 则 说 明成 功 
初始 化 副本 集 。 当 执行 完 初始 化 命令 后 ,当前 结 点 默认 处 于 "SECONDARY (副本 结 点 )" 状 
态 , 等 待 几 秒 钟 后 会 自动 选举 自己 成 为 YPRIMARY( 主 结 点 )”, 具 体 效 果 如 图 4-9 所 示 。 
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图 4-9 服务 器 nosql01 中 副本 集 角 色 


当前 副本 集 只 有 一 个 成 员 角色 , 即 主 结 点 。 接 下 来 ,我 们 将 其 他 两 台 服 务 器 nosql02 和 
nosql03 中 的 MongoDB 以 副本 结 点 的 角色 添加 到 副本 集中 (添加 结 点 的 操作 必须 在 主 结 点 
进行 ) ,具体 命令 如 下 : 
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"signature" : { 
"hash" : BinData(0, AAAAAAAAAAAAAAAAAAAAAAAAAAA-"), 
"keyId" : NumberLong (0) 


h 
"operationTime" : Timestamp(1587611474, 1) 


J 
# 将 服务 器 nosq103 的 MongoDB 添加 到 副本 集 
»rs.add("nosq103:27017") 
t 
*"ok*. s.1, 
"$clusterTime" : { 
"clusterTime" : Timestamp(1587611494, 1), 
"signature" : [ 
"hash" : BinData(0, "AAAAAAAAAAAAAAAAAAAAAAAAAAA-"), 
"keyId" : NumberLong (0) 


b 
"operationTime" : Timestamp (1587611494, 1) 


上 述 命令 中 使 用 add() 方 法 添加 副本 结 点 (如 添加 仲裁 结 点 可 使 用 addArb() 方 法 ,用 
法 与 add() 方 法 一 致 ) ,方法 中 包含 两 个 参数 : 主机 名 和 对 应 服务 器 下 MongoDB 服务 的 端 
口号 。 执 行 完 添加 副本 结 点 命令 后 ,客户 端 会 返回 添加 的 副本 结 点 的 相关 信息 ,如 信息 中 字 
段 “*OK” 的 值 为 1, 则 证 明 副 本 结 点 添加 成 功 。 

此 时 ,在 服务 器 nosql02 和 nosql03 上 登录 MongoDB 客户 端 ,查看 当前 服务 器 
集中 的 角色 分 配 情况 ,具体 效果 如 图 4-10 和 图 4-11 所 示 。 
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192.168.121.136 - SecureCRT = Ege X 
Fle Edit View Options Transfer Script Tools Window Help 


Ti Enter host <Alt+R> ü 


@ 192.168.121.134 | w 192.168.121.135 [192.168.121.136 x | 4b 


E. |[Tuser-nongosmasqT03 PTnTS —7monga --host mosqT03 —port 27017 5 
MongoDB shell version v4.2.2 
E||connecting to: mongodb://nosq103:27017/7compressors«disabled&gssapiserviceName-mongodb 
Implicit session: session ( "id" : UUID("68e122f1-098a-4ae2-8a4f-682d8375c9ad") } 
[$ |IMongops. server version: 4.2.2 


itcast SECONDARY) 目 


Ready ssh2: AES-256-CTR —— 36, 19 36 Rows, 105 Cols VT100 CAP NUM. 


图 4-11 服务 器 nosql03 的 副本 集 角色 
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从 图 4-10 和 图 4-11 中 可 以 看 出 ,服务 器 nosql02 和 服务 器 nosql03 上 MongoDB 的 副 
本 集 角 色 为 SECONDARY( 副 本 结 点 ) 。 至 此 ,我 们 完成 了 MongoDB 副本 集 的 部 署 。 

Lü£ 3É— 18. 使 用 配置 变量 的 方式 进行 副本 集 初 始 化 操作 

使 用 配置 变量 的 好 处 是 初始 化 副本 集 时 可 以 带 配 置 参 数 ,例如 配置 结 点 优先 级 、 成 员 角 
色 等 。 例 如 ,我 们 通过 配置 变量 的 方法 创建 一 主 一 副本 一 仲裁 结构 的 副本 集 , 具 体 实现 过 程 
如 下 。 

首先 ,同样 需要 在 三 台 服 务 器 以 副本 集 模式 启动 MongoDB, 在 任意 一 台 服 务 器 登录 
MongoDB 客户 端 (没有 进行 过 副本 集 初 始 化 操作 ) 。 

然后 ,在 MongoDB 客户 端 声明 变量 replset_conf, 该 变量 中 包含 初始 化 副本 集 的 相关 
参数 ,具体 内 容 如 下 : 


>replset conf = 
{ 
_id : "itcast01", 
members: [ 
( id: 0, host: "nosq101:27017",priority: 4 }, 
( id: 1, host: " nosq102:27017" , priority: 2], 
( id: 2, host: " nosq103:27017", arbiterOnly: true } 


} 

上 述 配置 变量 中 参数 priority 指定 该 成 员 优 先 级 ,优先 级 越 高 越 会 成 为 主 结 点 ;参数 
arbiterOnly 为 true 则 指定 该 成 员 为 仲裁 结 点 , 想 要 了 解 更 多 的 副本 集 配 置 参 数 内 容 , 可 参 
考 MongoDB 官网 提供 的 内 容 , 链 接 如 下 : 

https://docs.mongodb.com/ manual/ reference/ replica-configuration/ # replsetgetconfig- 


output 


最 后 ,在 初始 化 命令 中 指定 配置 变量 完成 副本 集 初始 化 操作 ,具体 命令 如 下 : 


»rs.initiate(replset conf) 


4.4 副本 集 操 作 


4.4.1 查看 副本 集成 员 状 态 


副本 集中 各 个 成 员 会 通过 心跳 信息 将 自己 的 当前 状态 告知 其 他 成 员 。 接 下 来 ,我们 来 
介绍 副本 集成 员 的 一 些 常见 状态 ,具体 如 表 4-2 所 示 。 
表 4-2 副本 集成 员 状 态 
状态 码 状态 名 称 状态 介绍 


0 STARTUP 成 员 刚 启动 时 处 于 此 状态 


l PRIMARY 成 员 处 于 主 结 点 的 状态 
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状态 码 状态 名 称 状态 介绍 
2 SECONDARY | 成 员 处 于 副本 结 点 的 状态 
3 RECOVERING | 成 员 正在 执行 启动 自 检 ,数据 回 滚 或 同步 过 程 结束 时 也 会 短暂 处 于 该 状态 
5 STARTUP2 员 处 于 初始 化 同步 过 程 
6 UNKNOWN 员 处 于 未 知 状态 、 宕 机 或 者 存在 网 络 访问 问题 
7 ARBITER 员 处 于 仲裁 结 点 的 状态 
8 DOWN 副本 集中 其 他 成 员 无 法 访问 该 成 员 
A 该 成 员 正 在 执行 数据 回 滨 , 无 法 从 该 成 员 读 取 数据 ,从 4.2 版 本 开始 ,当成 
员 进 入 该 状态 时 ,MongoDB 会 终止 所 有 正在 进行 的 用 户 操作 
10 REMOVED 该 成 员 从 副本 集中 移 除 


从 表 4-2 中 可 以 看 出 ,副本 集中 各 成 员 状 态 的 详细 介绍 ,我 们 可 以 通过 成 员 状态 信息 判 
断 该 成 员 的 运行 是 否 正常 。 
接 下 来 ,我们 将 演示 如 何在 MongoDB 副本 集 主 结 点 的 MongoDB 客户 端 查看 各 成 员 状 


态 信息 ,具体 命令 如 下 : 


# 进 入 服务 器 nosq101 中 MongoDB 的 bin 目录 
Scd /opt/servers/mongodb demo/replicaset/mongodb/bin 


# 登 录 MongoDB 客户 端 


$./mongo --host nosq101 --port 27017 


# 查 看 副本 集成 员 状态 信息 


itcast:PRIMARY»rs.status() 


t 


Tuer" : "itcast", 
"date" : ISODate("2020- 04- 23T04:14:18.4492"), 


"myState" : 1, 


"members" : [ 
{ 


"id":0, 

"name" : "nosq101:27017", 

"ip" : "192.168.121.134", 

"health" : 1, 

"state" : 1, 

"stateStr" : "PRIMARY", 

"uptime" : 6652, 

"optime" : ( 
"ts" : Timestamp(1587615250, 1), 
"t" : NunberLong(1) 

» 

"optimeDate" : ISODate("2020-04-23T04:14:102"), 

"syncingTo" : "", 

"syncSourceHost" : "", 
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"syncSourceId" 
"infoMessage" : "", 

"electionTime" : Timestamp(1587610598, 2), 
"electionDate" : ISODate ("2020-04-23T02:56:382Z") , 
"configVersion" : 3, 

"self" : true, 

"lastHeartbeatMessage" : "" 


) 


7" id" :1, 
"name" : "nosq102:27017", 
"ip" : "192.168.121.135", 
"health" : 1, 

"state" : 2, 

"stateStr" : "SECONDARY", 


"ts" : Timestamp(1587615250, 1), 
"t" : NumberLong(1) 


» 

"optimeDurable" : ( 
"ts" : Timestamp(1587615250, 1), 
"t" : NunberLong(1) 


» 

"optimeDate" : ISODate("2020-04-23T04:14:102"), 
"optimeDurableDate" : ISODate("2020-04-23T04:14:102Z"), 
"lastHeartbeat" : ISODate("2020- 04- 23T04:14:17.4292"), 
"lastHeartbeatRecv" : ISODate ("2020- 04- 23T04:14:18.3732Z"), 
"pingMs" : NumberLong(0), 

"lastHeartbeatMessage" : "", 

"syncingTo" : "nosq103:27017", 

"syncSourceHost" : "nosq103:27017", 

"syncSourceId" : 2, 

"infoMessage" : "", 

"configVersion" : 3 


: "nosq103:27017", 

"ip" : "192.168.121.136", 

"health" : 1, 

"state" : 2, 

"stateStr" : "SECONDARY", 

"uptime" : 3764, 

"optime" : ( 
"ts" : Timestamp(1587615250, 1), 
"t" : NumberLong(1) 

b 

"optimeDurable" : { 
"ts" : Timestamp(1587615250, 1), 
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"t" : NumberLong (1) 
» 
"optimeDate" : ISODate("2020-04-23T04:14:102Z"), 
"optimeDurableDate" : ISODate("2020-04-23T04:14:102"), 
"lastHeartbeat" : ISODate ("2020- 04- 23T04:14:17.6312"), 
"lastHeartbeatRecv" : ISODate("2020- 04-23T04:14:18.0172"), 
"pingMs" : NumberLong(0), 
"lastHeartbeatMessage" : "", 
"syncingTo" : "nosq101:27017", 
"syncSourceHost" : "nosq101:27017", 
"syncSourceId" : 0, 
"infoMessage" : "", 
"configVersion" : 3 


) 


上 述 副本 集成 员 状态 信息 中 部 分 参数 如 下 : 

。 members: 包含 副本 集中 所 有 成 员 信息 。 

* name: 表示 成 员 在 副本 集中 的 名 称 , 默 认 以 启动 时 指定 的 bind ip 和 port 参数 组 合 

命名 。 

* dp: 表示 成 员 的 ip 地 址 。 

* dd: 表示 成 员 在 副本 集中 的 id 值 。 

。 health: 表示 成 员 健 康 值 ,1 为 健康 ,0 为 不 健康 。 

。 state: 表示 成 员 的 状态 码 。 

。 stateStr: 表示 成 员 的 状态 名 称 。 

乓 多 学 一 招 : 回 滚 (rollback) 

回 滚 操作 是 MongoDB 副本 集 发 生 一 些 异 常 主 备 切换 后 发 生 的 现象 , 回 滚 操作 会 撤销 
在 当前 结 点 上 已 执行 的 一 些 修 改 操作 。 

触发 回 滚 操作 分 为 以 下 两 种 情况 ， 

(1) 副本 结 点 在 同步 源 上 没有 查 到 比 自身 更 新 的 oplog, 同 步 源 默认 为 主 结 点 。 

(2) 同步 源 返 回 的 的 第 一 条 oplog 和 副本 结 点 自身 最 新 oplog 的 OpTime 和 hash 都 


442 同步 副本 文档 


通过 向 MongoDB 副本 集 主 结 点 写 入 文档 .验证 其 他 副本 结 点 是 否 成 功 同步 主 结 点 写 
入 的 文档 内 容 , 具 体操 作 步 又 如 下 。 

COD 在 服务 器 nosql01( 副 本 集 主 结 点 ) 的 MongoDB 客户 端 写 人 一 条 文档 ,具体 命令 
如 下 : 


# 进 入 服务 器 nosq101 中 MongoDB 的 bin 目录 
Scd /opt/servers/mongodb demo/replicaset/mongodb/bin 
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通过 上 述 操作 ,成 功 在 副本 集 主 结 点 的 数据 库 test 中 创建 集合 user 并 插入 一 条 文档 。 
(2) 在 服务 器 nosql02( 副 本 结 点 ) 中 登录 MongoDB 客户 端 ,查看 数据 库 test 下 的 集合 
user 中 是 否 存在 与 主 结 点 一 致 的 文档 内 容 , 具 体 命令 如 下 : 


执行 查看 集合 中 的 文档 命令 时 ,客户 端 会 返回 Error 的 错误 信息 ,这 是 因为 默认 情况 下 
副本 结 点 不 能 读 取 副 本 集中 的 内 容 , 因 此 我 们 需要 设置 开启 副本 结 点 的 读 取 权 限 ,然后 才 可 
以 查看 副本 集中 的 内 容 , 具 体 命令 如 下 : 


执行 完 上 述 命令 后 ,在 服务 器 nosqlo2 中 的 MongoDB 客户 端 再 次 查看 user 集合 中 的 
文档 ,如 图 4-12 所 示 。 
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192.168.121.135 - SecureCRT - n x 


File Edit View Options Transfer Script Tools Window Help 
daz 593 d) X. Enter host <Alt+R> 


+? 192.168.121.134 | $? 192.168.121.135 x | 192.168.121.136 


"l| T1tCast:SECONDARY» use test 

Switched to db test 

itcast:SECONDARY» db.user.find() 

Error: error: { 
«perat fonrime" : Timestamp(1587615970, 1), 
ok" : 0， 


"errmsg" : "not master and slaveok-false", 
"code": 13435, 
“codename” : "NotMasterNoSlaveok", 
"$clusterTime" : 
"clusterrime" : Timestamp(1587615970, 1), 
"signature 
: BinData(0, "AAAAAAAAAAAAAAAAAAAAAAAAAAA-") , 
i "kasra" : NumberLong(0) 
} 


itcast:SECONDARY» rs.slaveok() 
itcast:SECONDARY> db.user.find() 
"id" : Objectid("5ea1181efb74328a3231e8d1"), "name" : " 


tcast : SECONDARY» v 


ssh2: AES-256-CTR. 21, 19 21 Rows, 76 Cols VT100 CAP NUM 


432 成 功 同步 数据 


从 图 4-12 中 可 以 看 出 ,在 副本 结 点 中 成 功 查询 user 集合 中 的 文档 ,并 且 文 档 内 容 与 3 
结 点 中 插入 集合 user 中 的 文档 内 容 一 致 ,说 明 副 本 集 同步 副本 文档 生效 。 


4.4.3 故障 转移 
通过 手动 关闭 主 结 点 的 MongoDB, 观 察 副本 集 是 否 会 从 两 个 副本 结 点 中 选举 出 新 的 主 
结 点 ,实现 自动 故障 转移 ,具体 实现 步骤 如 下 。 


在 服务 器 nosql01 的 MongoDB 客户 端 中 通过 “exit ”命令 关闭 客户 端 ,通过 查看 
MongoDB 服务 运行 的 进程 ID 关闭 MongoDB, 具 体 命令 如 下 : 


T 


# 查 看 MongoDB 运行 的 进程 ，MongoDB 的 进程 ID Jy 9831 
3ps -ef | grep mongodb 


user mot 9831 121070:2312 00:01:26 ./mongod --replSet itcast - -dbpath-/ 
opt/servers/mongodb demo/replicaset/data/ - - logpath -/opt/servers /mongodb  demo/ 
replicaset/logs/mongodb.log --port 27017 --bind ip nosq101 - -logappend --fork 

+AA] MongoDB 进程 

Skill -2 9831 


执行 上 述 命令 ,关闭 服务 器 nosql01 中 的 MongoDB., 
分 别 登 录 服 务 器 nosql03 和 服务 器 nosql02 中 的 MongoDB 客户 端 ,验证 副本 集 是 否 实 
现 自动 故障 转移 ,从 两 个 副本 结 点 中 选举 出 新 的 主 结 点 。 
此 时 我 们 会 发 现 服务 器 nosql02 中 MongoDB 客户 端 变更 为 主 结 点 ,在 服务 器 nosql02 
的 MongoDB 客户 端 执 行 查看 副本 集成 员 状态 命令 ,副本 集成 员 的 状态 信息 如 下 (这 里 只 截 
取 副 本 集成 员 信息 的 部 分 内 容 ) : 


"members": [ 


E dos TOP 
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从 MongoDB 客户 端 返回 的 副本 集成 员 状 态 信息 可 以 看 出 ,ip 为 192.168.121.134( 服 务 
器 nosql01) 的 副本 集成 员 的 健康 状态 (health) 为 0, 并 且 状 态 码 为 8( 失 去 连接 );ip 为 192. 
168.121.135( 服 务 器 nosql02) 的 副本 集成 员 的 状态 码 为 1( 主 结 点 );ip 为 192.168.121.136 
(服务 器 nosql03) 的 副本 集成 员 的 状态 码 为 2( 副 本 结 点 ) 。 

通过 上 述 测试 ,证 明 副 本 集 的 自动 故障 转移 功能 可 以 正常 使 用 ,此 时 MongoDB 副本 集 
的 主 结 点 变 为 服务 器 nosql02, 重 新 以 副本 集 模式 启动 服务 器 nosql01 上 的 MongoDB, 登 录 
MongoDB 客户 端 会 发 现 该 结 点 自动 变 为 副本 结 点 。 


4.4.4 配置 副本 集成 员 


在 实际 使 用 过 程 中 , 随 着 需求 的 变化 我 们 会 对 副本 集成 员 的 配置 进行 更 改 , 例 如 修改 成 
员 优 先 级 、 选 举 权 和 成 员 角色 等 操作 。 接 下 来 ,我 们 将 详细 讲解 如 何 修 改 副 本 集成 员 。 


1. 获取 副本 集成 员 配 置信 息 


在 修改 副本 集成 员 前 ,需要 先 获取 副本 集成 员 信息 并 赋值 到 变量 中 ,通过 被 赋值 的 变量 
对 指定 成 员 进行 修改 ,具体 命令 如 下 : 
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} 


执行 完 上 述 命令 后 ,变量 cfg 中 会 存储 副本 集成 员 信息 ,同时 MongoDB 客户 端 会 返回 
副本 集成 员 信息 ,信息 中 部 分 参数 如 下 : 
* dd: 表示 成 员 在 副本 集中 的 编号 。 
。 host: 表示 成 员 的 主机 名 及 端口 号 。 
。 members: 表示 副本 集中 所 有 成 员 的 信息 。 
。 arbiterOnly: 代表 该 成 员 是 否 为 仲裁 结 点 。 
hidden; 代表 该 成 员 是 否 为 隐藏 结 点 。 
。 priority: 表示 成 员 的 优先 级 。 
* votes; 代表 成 员 是 否 有 投票 权 , 其 中 ,1 代表 有 投票 权 ,0 代表 没有 投票 权 。 


2. 调整 副本 集成 员 的 优先 级 


在 MongoDB 副本 集中 除了 仲裁 结 点 外 ,其 他 每 一 个 成 员 都 存在 优先 级 ,能 够 手动 设置 
优先 级 来 决定 哪个 成 员 会 被 选举 成 为 Primary( 主 结 点 )。 副 本 集 通 过 设置 参数 priority 的 
值 来 决定 结 点 优先 级 的 大 小 ,该 值 的 范围 是 0 — 100 , 值 越 大 则 优先 级 越 高 , 当 值 为 0 时 ,该 
结 点 便 不 能 成 为 Primary。 在 资源 不 均衡 的 副本 集 环境 中 ,可 以 指定 资源 较 差 的 服务 器 中 
的 成 员 不 能 成 为 Primary。 调 整 副本 集成 员 优先 级 的 操作 步骤 如 下 。 

COD 将 _id 为 0 的 副本 结 点 ( 即 服务 器 nosql01) 优 先 级 值 由 1 改 为 2, 具 体 命令 如 下 : 


itcast:PRIMARY>cfg.members [0] .priority =2 
2 


上 述 命令 中 ,members[L0] 中 的 0 与 副本 集 配置 信息 中 的 字段 _id 的 值 没 有 直接 关系 , 因 
为 _id 的 值 是 可 以 修改 的 ,这 里 的 0 指 该 副本 结 点 在 副本 集 配置 信息 中 的 字段 members 中 
数组 位 置 。 

(2) 将 调整 副本 集成 员 优先 级 的 操作 应 用 到 副本 集 , 具 体 命令 如 下 : 


itcast:PRIMARY»rs.reconfig(cfg) 
t 
a 
"$clusterTime" : { 
"clusterTime" : Timestamp(1587711115, 2), 
"signature" : { 
"hash" : BinData(0,"8px3BeNSutd68qYwIF5u*K6iUc4-"), 
"keyId" : NumberLong("6818735601487970306") 
} 
h 
"operationTime" : Timestamp(1587711115, 2) 
} 


执行 上 述 命令 ,在 客户 端 返回 的 信息 中 可 以 看 到 字段 OK 的 值 为 1, 证 明成 功 将 副本 结 
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点 (服务 器 nosql01) 的 优先 级 调整 为 2, 此 时 在 服务 器 nosql01 中 登录 MongoDB 客户 端 会 
发 现 当前 副本 集 角 色 变 为 主 结 点 (PRIMARY) ,读者 可 自行 操作 ,这 里 不 再 做 演示 。 


3. 配置 隐藏 结 点 和 延迟 结 点 


隐藏 结 点 是 副本 结 点 的 一 种 表现 形式 , 它 不 能 被 客户 端 引用 ,也 就 是 说 这 个 结 点 不 能 用 
于 读 写 分 离 的 场景 。 不 过 对 于 其 他 副本 结 点 和 主 结 点 来 说 都 是 可 见 的 ,因此 隐藏 副本 结 点 
依然 可 以 投票 ,依然 可 以 同步 主 结 点 的 数据 副本 ,只 不 过 客户 端 无 法 读 取 隐 藏 副本 结 点 的 数 
据 ,无 法 实现 负载 功能 。 

延迟 结 点 是 副本 结 点 的 另 一 种 表现 形式 , 它 代表 此 结 点 的 数据 与 主 结 点 的 数据 有 一 定 
的 延迟 同步 ,通过 设 定 一 个 延迟 的 属性 来 确定 。 实 现 延 迟 副本 结 点 的 前 提 是 该 结 点 为 隐藏 
结 点 。 由 于 延迟 副本 结 点 会 延迟 复制 主 结 点 的 数据 集 , 因 此 可 以 从 人 为 的 误 操作 中 恢复 
数据 。 

接 下 来 ,我 们 将 详细 讲解 如 何在 副本 集中 配置 隐藏 结 点 和 延迟 结 点 ,需要 在 副本 集 主 结 
点 (服务 器 nosql01) 上 进行 相关 操作 。 

配置 隐藏 结 点 需要 将 参数 priority 设置 为 0. 参数 hidden 设置 为 true, 具 体 命令 如 下 : 


## 在 服务 器 nosql01 中 MongoDB 的 bin 目录 下 登录 MongoDB 客户 端 
$./mongo --host nosql101 --port 27017 

# 将 副本 集 配置 信息 赋值 到 变量 cfg 

itcast:PRIMARY»cfg -rs.conf() 

# 设 置 服务 器 nosq102 中 副本 结 点 的 优先 级 为 0 
itcast:PRIMARY>cfg.members[1] .priority =0 

# 设 置 服务 器 nosq102 中 副本 结 点 为 隐藏 结 点 
itcast:PRIMARY»cfg.members[1].hidden -true 
itcast:PRIMARY»rs.reconfig(cfg) 


配置 延迟 结 点 同样 需要 将 参数 priority 设置 为 0, 参数 hidden 设置 为 true, 只 不 过 这 里 
需要 多 配置 一 项 参数 slaveDelay 设置 延迟 时 间 , 具 体 命令 如 下 : 


# 将 副本 集 配置 信息 赋值 到 变量 cfg 
itcast:PRIMARY>cfg -rs.conf() 

# 设 置 服务 器 nosq103 中 副本 结 点 的 优先 级 为 0 
itcast:PRIMARY»cfg.members[2].priority =0 

# 设 置 服务 器 nosq103 中 副本 结 点 为 隐藏 结 点 
itcast:PRIMARY»cfg.members[2].hidden -true 

# 设 置 延迟 时 间 为 3600% 
itcast:PRIMARY»cfg.members[2].slaveDelay =3600 
itcast:PRIMARY»rs.reconfig(cfg) 


上 述 配置 隐藏 结 点 和 延迟 结 点 的 命令 中 ,只 针对 特殊 操作 进行 注解 ,对 于 客户 端 返回 信 
息 不 再 做 展示 ,读者 可 在 自行 操作 过 程 中 进行 查看 。 


4. 配置 副本 集成 员 投 票 权 
副本 集中 允许 有 7 个 拥有 投票 权 的 成 员 , 配 置 副 本 集成 员 拥 有 投票 权 需 要 修改 参数 


134 


NoSQL 数据 库 技术 与 应 用 


votes 的 值 为 1, 如 修改 值 为 0 则 代表 该 成 员 不 具备 投票 权 , 默 认 情 况 下 在 副本 集中 创建 的 
成 员 都 具备 投票 权 , 即 votes 的 值 为 1。 接 下 来 ,我 们 将 服务 器 nosql02 中 的 隐藏 结 点 的 投 
票 权 设置 为 0, 具体 命令 如 下 : (这 里 需要 注意 的 是 ,相关 操作 需要 在 副本 集 主 结 点 进行 , 即 
服务 器 nosql01) 。 


# 在 服务 器 nosq101 中 MongoDB 的 bin 目录 下 登录 MongoDB 客户 端 
$./mongo --host nosq101 --port 27017 

# 将 副本 集 配置 信息 赋值 到 变量 cfg 

itcast:PRIMARY»cfg =rs.conf () 


# 设 置 服务 器 nosq102 中 隐藏 结 点 的 投票 权 设置 为 0, 即 不 可 投票 
itcast:PRIMARY»cfg.members[1].votes =0 
itcast:PRIMARY»rs.reconfig(cfg) 


上 述 配 置 投票 权 的 命令 中 ,只 针对 特殊 操作 进行 注解 ,对 于 客户 端 返回 信息 不 再 做 展 
m ,读者 可 在 自行 操作 过 程 中 进行 查看 。 


5. 将 副本 结 点 转 为 仲裁 结 点 


首先 ,在 副本 集 主 结 点 (服务 器 nosql01) 中 移 除 副 本 集中 要 转换 为 仲裁 结 点 的 副本 结 
点 ,这 里 以 服务 器 nosql02 中 的 隐藏 结 点 为 例 , 具 体 命令 如 下 : 


# 在 服务 器 nosq101 中 MongoDB 的 bin 目录 下 登录 MongoDB 客户 端 
$./mongo --host nosq101 --port 27017 

# 将 副本 集 配置 信息 赋值 到 变量 cfg 

itcast:PRIMARY>cfg -rs.conf() 

# 移 除 服务 器 nosq102 中 的 隐藏 结 点 


itcast:PRIMARY»rs.remove("nosq102:27017") 


接 下 来 ,在 服务 器 nosqlo2 上 退出 MongoDB 客户 端 并 关闭 MongoDB 进程 ,备份 
MongoDB 数据 存放 目录 ,具体 命令 如 下 : 


$mv /opt/servers/mongodb demo/replicaset/data /opt/servers/mongodb demo 
/replicaset/data-old 


然后 ,在 服务 器 nosql02 上 创建 一 个 新 的 MongoDB 数据 存放 目录 ,并 以 该 目录 为 数据 
存放 目录 在 MongoDB 安装 目录 的 bin 目录 下 重新 启动 MongoDB, 具 体 命 令 如 下 : 


Smkdir /opt/servers/mongodb demo/replicaset/data-new 
5./mongod --replSet itcast --dbpath-/opt/servers/mongodb demo/replicaset 
/data-new --logpath-/opt/servers/mongodb demo/replicaset/logs/mongodb.log 
--port 27017 --bind ip nosq102 --logappend --fork 


最 后 ,在 副本 集 主 结 点 (服务 器 nosql01) 将 该 服务 器 nosql02 中 的 MongoDB 以 仲裁 结 
点 的 角色 添加 到 副本 集中 ,具体 命令 如 下 : 


itcast:PRIMARY>rs.addArb ("nosql02:27017") 


$43 MongoDB 副本 集 


至 此 ,我 们 完成 了 将 副本 结 点 转换 为 仲裁 结 点 的 操作 ,可 在 副本 集 主 结 点 运行 命令 “rs. 
conf O ”验证 是 否 转换 成 功 , 如 输出 的 副本 集成 员 配 置信 息 中 服务 器 nosql02 结 点 的 
arbiterOnly 参数 变 为 true, 则 证 明 转 换 成 功 。 或 登录 服务 器 nosql02 中 MongoDB 客户 端 ， 
查看 角色 信息 是 否 变更 为 ARBITER 。 


4.4.5 安全 认证 


默认 情况 下 部 署 的 MongoDB 副本 集 不 会 开启 安全 认证 功能 ,这 样 会 对 副本 集 的 安全 
带 来 一 定 影响 ,任何 人 都 可 以 操作 副本 集 , 这 在 生产 环境 中 是 不 允许 发 生 的 。MongoDB 副 
本 集 之 间 通 信 有 两 种 安全 认证 机 制 , 一 种 是 通过 KeyFile, 另 外 一 种 是 通过 证 书 x.509。 官 
网 推荐 使 用 证 书 的 方式 ,不 过 我 们 这 里 搭建 测试 和 开发 环境 没 必要 去 和 弄 证 书 , 因 此 我 们 直接 
通过 配置 KeyFile 就 可 以 实现 安全 通信 ,不 过 在 生产 环境 中 推荐 使 用 证 书 x.509。 

KeyFile 是 MongoDB 副本 集 安全 认证 的 一 种 形式 ,该 形式 是 通过 一 个 密 钥 文件 使 副本 
集中 各 服务 器 进行 内 部 通信 使 用 , 当 作 副 本 集 内 部 的 密码 ,这 个 密 钥 文件 基本 上 是 一 个 明文 
的 文件 ,副本 集中 每 个 成 员 的 密 钥 文件 内 容 须 保持 一 致 。 

密 钥 文 件 的 使 用 需要 注意 以 下 几 点 : 

* 内 容 至 少 包含 6 个 字符 ,文件 的 大 小 不 能 超过 1024 FI; 

* 文件 中 的 空白 字符 在 认证 过 程 没 有 实际 意义 ; 

。 文件 编码 为 base64, 但 不 能 包含 等 于 号 ; 

* 密 钥 文件 权限 一 定 要 等 于 或 小 于 600(rw 只 有 拥有 者 有 读 写 权限 ) ,否则 会 报 出 权限 

太 高 的 错误 。 

MongoDB 副本 集中 的 KeyFile 安全 认证 可 以 理解 为 MongoDB 单机 模式 下 的 auth 认 
证 功能 ,开启 KeyFile 安全 认证 ,就 不 需要 再 使 用 auth 认证 ( 隐 含 就 是 开启 了 auth) ,这 个 时 
候 登 录 MongoDB 副本 集 的 客户 端 就 需要 用 户 名 和 密码 进行 认证 。KeyFile 认证 不 是 必 选 
项 ,不 过 副本 集中 一 个 成 员 开 启 了 KeyFile 认证 的 情况 下 ,其 他 成 员 也 必须 开启 KeyFile Ù 
证 ,否则 将 不 会 加 入 该 副本 集 。 

接 下 来 ,我 们 将 详细 讲解 如 何在 MongoDB 副本 集中 开启 KeyFile 安全 认证 功能 ,注意 本 
节 相 关 操 作 同 样 需要 使 用 user_mongo 用 户 , 这 里 我 们 以 服务 器 nosql01 为 例 (副本 集 主 结 点 )。 


1. 创建 KeyFile 文件 
创建 用 于 存放 KeyFile 文件 的 目录 ,具体 命令 如 下 : 


$mkdir -p /opt/servers/mongodb demo/replicaset/key 


TE /opt/servers/mongodb | demo/replicaset/key 目录 下 新 建 KeyFile 文件 并 命名 为 
keyfile, 具 体 命令 如 下 : 


Stouch /opt/servers/mongodb demo/replicaset/key/keyfile 


2. 向 KeyFile 文件 写 入 密 钥 
通过 Linux 系统 提供 的 密码 工具 集 openssl 生成 符合 KeyFile 文件 标准 的 密 钥 并 写 和 人， 
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具体 命令 如 下 : 


Sopenssl rand -base64 756 -out /opt/servers/mongodb demo/replicaset/key 
/keyfile 


执行 完 上 述 命令 后 ,可 执行 vi /opt/servers/mongodb. demo/replicaset/key/keyfile 命 
4 ,查看 密 钥 是 否 成 功 写 人 KeyFile X fF, 
修改 KeyFile 文件 权限 为 600, 即 只 有 当前 用 户 拥 有 可 读 写 权限 ,具体 命令 如 下 : 


$chmod 600 /opt/servers/mongodb demo/replicaset/key/keyfile 


注意 : 如 不 操作 此 步 ,后 续 则 会 因为 KeyFile 文件 默认 权限 过 大 ,无 法 启动 安全 认证 的 
MongDB 副本 集 。 


3. 同步 KeyFile 文件 


为 了 保证 副本 集中 各 结 点 的 KeyFile 文件 保持 一 致 ,需要 将 KeyFile 文件 (keyfile) 复 制 
到 其 他 结 点 ,具体 命令 如 下 : 


$scp -r /opt/servers/mongodb demo/replicaset/key user mongo8nosq102: 
/opt/servers/mongodb demo/replicaset/ 

$scp -r /opt/servers/mongodb demo/replicaset/key user mongo8nosq103: 
/opt/servers/mongodb demo/replicaset/ 


在 执行 上 述 命令 时 ,会 提示 是 否 连接 (continue connecting (yes/no)?) 和 输入 目标 服务 
器 中 user_mongo 用 户 的 密码 (user_mongo@nosql03's password: ) ,依次 按照 提示 输入 即 
可 。 复 制 完 成 后 须 保 证 其 他 结 点 上 的 KeyFile 文件 权限 为 600 。 


4. 创建 全 局 管理 用 户 


通过 前 几 步 的 操作 ,确保 了 副本 集 各 结 点 拥有 符合 KeyFile 文件 规则 且 内 容 一 致 的 密 
钥 文件 ,不 过 在 启动 MongoDB 副本 集 安全 认证 前 ,还 需要 在 副本 集中 创建 全 局 管理 用 户 。 
因为 ,开启 安全 认证 后 在 不 指定 用 户 登 录 MongoDB 客户 端 时 ,默认 情况 下 我 们 是 以 访客 身 
份 登录 而 没有 任何 操作 的 权限 ,也 无 法 创建 用 户 ,这 会 导致 开启 了 安全 认证 的 副本 集 无 法 正 
常 使 用 。 因 此 ,需要 在 没有 开启 安全 认证 的 MongoDB 副本 集中 添加 全 局 管理 用 户 ,具体 实 
现 步骤 如 下 。 

登录 服务 器 nosql01 的 MongoDB 客户 端 ( 主 结 点 ) ,切换 到 数据 库 admin, 添 加 全 局 用 
户 itcastAdmin, 具 体 命令 如 下 : 


itcast:PRIMARY»use admin 

Switched to db admin 
itcast:PRIMARY»db.createUser((user:"itcastAdmin",pwd:"123456", roles: 
[(role:"userAdminAnyDatabase",db:"admin"), (role: "readWriteAnyDatabase", 
db: "admin"), (role:"dbAdminAnyDatabase", db: "admin")]]) 

Successfully added user: | 


"user" : "itcastAdmin", 
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"roles" : [ 


"role" : "userAdminAnyDatabase", 
"db" : "admin" 


"role" : "readWriteAnyDatabase", 
"db" : "admin" 


"role" : "dbAdminAnyDatabase", 
"db" : "admin" 


) 


通过 执行 上 述 命令 ,成 功 创建 了 全 局 管理 用 户 itcastAdmin. 指定 该 用 户 密 码 为 
“123456”。 配 置 该 用 户 拥有 全 局 用 户 管 理 (userAdminAnyDatabase)、 全 局 数据 库 管 理 
(dbAdminAnyDatabase) 及 全 局 数据 读 写 (readWriteAnyDatabase) 这 三 种 权限 。 

验证 用 户 是 否 创建 成 功 ,具体 命令 如 下 : 


itcast:PRIMARY>db.auth("itcastAdmin", "123456") 
1 


执行 完 上 述 命令 后 客户 端 返回 信息 *1”, 则 证 明 用 户 创建 成 功 。 
5. 启动 安全 认证 


在 启动 安全 认证 前 应 确保 MongoDB 副本 集 处 于 关闭 状态 ( 需 关 闭 三 台 服 务 器 上 的 
MongoDB 服务 ,有关 MongoDB 服务 的 关闭 操作 可 参考 本 章 4.4.3 节 中 故障 转移 操作 内 容 ， 
先 关 闭 副 本 结 点 ,再 关闭 主 结 点 ), 开 启 副 本 集 安 全 认证 ,需要 在 以 副本 集 模 式 启 动 
MongoDB 命令 的 基础 上 添加 keyFile 参数 ,指定 KeyFile 文件 的 路 径 ,具体 命令 令 如 下 : 


# 在 服务 器 nosq101 中 MongoDB 的 bin 目录 下 执行 

$./mongod --replSet itcast --keyFile /opt/servers/mongodb demo/replicaset/key 
/keyfile --dbpath-/opt/servers/mongodb demo/replicaset/data --logpath- 
/opt/servers/mongodb demo/replicaset/logs/mongodb.log --port 27017 
--bind ip nosq101 --logappend --fork 

# 在 服务 器 nosq102 中 MongoDB 的 bin 目录 下 执行 

5./mongod --replSet itcast --keyFile /opt/servers/mongodb demo/replicaset/key 
/keyfile --dbpath-/opt/servers/mongodb demo/replicaset/data --logpath- 
/opt/servers/mongodb demo/replicaset/logs/mongodb.log --port 27017 
--bind ip nosq102 --logappend --fork 

坦 在 服务 器 nosq103 中 MongoDB 的 bin 目录 下 执行 

$./mongod --replSet itcast --keyFile /opt/servers/mongodb demo/replicaset/key 
/keyfile --dbpathe-/opt/servers/mongodb demo/replicaset/data --logpath- 
J/opt/servers/mongodb demo/replicaset/logs/mongodb.log --port 27017 
--bind ip nosq103 --logappend --fork 
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执行 上 述 命令 ,开启 MongoDB 副本 集 安 全 认证 。 在 服务 器 nosql01( 主 结 点 ) 中 登录 
MongoDB 客户 端 ,验证 安全 认证 是 否 成 功 启动 。 

在 4.4.2 节 同 步 副 本 文档 操作 内 容 中 ,我 们 向 数据 库 test 的 集合 user 中 插入 了 一 条 文 
档 。 接 下 来 ,在 不 指定 用 户 登 录 MongoDB 客户 端的 情况 下 ,是 否 可 以 查看 集合 user 中 的 文 
档 , 具 体 命令 如 下 : 


执行 上 述 操作 时 ,从 客户 端 返回 的 信息 可 以 看 出 , 当 不 指定 用 户 登录 MongoDB 客户 端 
时 ,执行 读 取 和 写 入 操作 时 会 出 现 类 似 *command xxx requires authentication( 执 行 xxx 命 
令 需 要 身份 认证 )” 的 错误 信息 。 

接 下 来 ,我 们 切换 到 数据 库 admin, 在 该 数据 库 下 通过 全 局 管理 用 户 itcastAdmin 进行 
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身份 验证 ,再 次 执行 查看 集合 user 中 的 文档 并 插入 一 条 新 的 文档 ,具体 命令 如 下 : 


执行 上 述 操作 时 ,从 客户 端 返回 的 信息 可 以 看 出 ,全 局 管理 用 户 itcastAdmin 进行 身份 
验证 后 ,可 以 正常 对 集合 进行 读 取 和 写 入 操作 。 因 此, 证明 我 们 成 功 为 副本 集 开启 了 安全 
认证 。 

国 多 学 一 招 : 开启 权限 认证 后 副本 集 操作 

如 果 副 本 集 开 启 了 安全 认证 , 则 需要 切换 到 具有 root 权限 的 用 户 去 配置 副本 集 ,添加 
root 权限 用 户 命 令 如 下 (这 里 以 MongoDB 副本 集 的 主 结 点 服务 器 nosql01 进行 操作 ): 


通过 上 述 操作 ,成 功 创建 了 具有 root 权限 的 用 户 admin。 如 已 开启 副本 集 安全 认证 ， 
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则 需要 使 用 该 用 户 对 副本 集 进行 相关 配置 操作 。 


4.5 副本 集 机 制 


4.5.1 同步 机 制 


为 了 保证 副本 集中 各 成 员 的 数据 副本 一 致 ,副本 集 的 副本 结 点 默认 会 以 主 结 点 作为 同 
步 源 进行 数据 同步 。MongoDB 使 用 两 种 形式 完成 数据 同步 过 程 ,分 别 是 完整 同步 和 变化 
同步 。 关 于 这 两 种 同步 方式 的 相关 介绍 如 下 : 


1. 完整 同步 


在 副本 集 新 增 成 员 情 况 下 ,采用 完整 同步 方式 同步 数据 副本 。 具 体 步 又 如 下 : 

(1) 新 增 成 员 选 择 副本 集中 的 主 结 点 作为 同步 源 。 

(2) 扫描 源 数据 库 中 的 每 个 集合 ,并 将 这 些 集 合 中 的 所 有 文档 插入 到 本 地 ,此 过 程 比较 
FERT. 

(3) 通过 主 结 点 的 oplog 重建 本 地 oplog。 

(4) 完成 初始 化 同步 ,成 为 副本 结 点 。 

对 于 比较 小 的 数据 集 和 性 能 较 好 的 服务 器 ,初始 化 同步 是 个 不 错 的 选择 ,不 过 当 数据 集 
较 大 时 ,执行 初始 化 同步 ,会 强制 将 当前 结 点 的 所 有 数据 分 页 加 载 到 内 存 中 ,这 会 导致 需要 
频繁 访问 的 数据 不 能 常 驻 内 存 , 从 而 导致 很 多 请 求 变 慢 。 


2. 变化 同步 


在 副本 集 主 结 点 中 数据 副本 发 生变 化 的 情况 下 ,采用 变化 同步 方式 同步 数据 副本 。 具 
体 步 又 如 下 : 

(1) 副本 集 主 结 点 数据 副本 发 生变 化 时 ,oplog 会 记录 变化 内 容 。 

(2) 副本 结 点 获取 主 结 点 oplog 记录 变化 内 容 并 执行 相关 操作 。 

O 副本 结 点 根据 主 结 点 oplog 重建 本 地 oplog 。 


4.5.2 选举 机 制 


如 果 副 本 集 的 主 结 点 在 使 用 过 程 中 发 生 故 障 , 导 致 无 法 使 用 , 则 其 他 拥有 投票 权 的 成 员 
便 会 通过 选举 机 制 从 副本 集 所 有 符合 选举 条 件 的 成 员 中 选 出 新 的 主 结 点 。 选 举 的 过 程 可 以 
由 任意 的 非 主 结 点 成 员 发 起 ,然后 根据 优先 级 和 Bully 算法 (评判 谁 的 数据 最 新 ) 选 举 出 主 
结 点 。 在 选举 出 主 结 点 之 前 ,整个 集群 服务 是 只 读 的 ,不 能 执行 写 人 操作 。 非 仲裁 结 点 都 有 
一 个 优先 级 的 配置 ,范围 为 0 一 100, 值 越 大 , 则 结 点 越 优先 成 为 主 结 点 。 默 认 情 况 下 ,优先 
级 是 1; 如 果 优 先 级 是 0, 则 不 能 成 为 主 结 点 。 

Bully 算法 是 一 种 协调 者 ( 主 结 点 ) 竞 选 算 法 ,主要 思想 是 集群 的 每 个 成 员 都 可 以 声明 
它 是 主 结 点 并 通知 其 他 成 员 。 其 他 成 员 可 以 选择 接受 并 投票 给 它 或 是 拒绝 并 参与 主 结 点 竞 
争 , 拥 有 多 数 成 员 投票 数 的 副本 结 点 才能 成 为 新 的 主 结 点 。 成 员 按照 谁 的 数据 比较 新 来 判 
断 把 票 投 给 谁 。 仲 裁 结 点 也 会 参与 投票 ,避免 出 现 僵局 。 
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除 此 之 外 成 员 的 优先 级 会 直接 影响 选举 结果 ,选举 机 制 会 尽 最 大 的 努力 让 优先 级 最 高 
的 成 员 成 为 主 结 点 ,即使 副本 集中 已 经 选举 出 了 比较 稳定 的 、 但 优先 级 比较 低 的 主 结 点 。 当 
副本 集 出 现 优先 级 比较 高 的 成 员 时 ,副本 集会 发 起 新 一 轮 选举 ,将 优先 级 最 高 的 成 员 选 举 成 
为 主 结 点 。 


4.5.3 心跳 检测 机 制 


副本 集 的 心跳 检测 机 制 是 通过 副本 集 每 个 成 员 每 两 秒 钟 ping 一 次 其 他 所 有 成 员 来 了 
解 系统 的 健康 状况 ,该 机 制 发 现 故障 后 ,会 自动 进行 选举 和 故障 转移 ,常见 应 用 场景 如 下 : 

COD 某 个 结 点 失去 了 响应 ,副本 集 就 会 采取 相应 的 措施 。 这 时 副本 集会 判断 失去 响应 
的 是 主 结 点 还 是 副本 结 点 ,如 果 是 多 个 副本 结 点 中 的 某 一 个 副本 结 点 , 则 副本 集 不 做 任何 处 
理 ,只 需要 等 待 副 本 结 点 重新 上 线 。 如 果 是 主 结 点 挂 掉 了 , 则 副本 集会 开始 选举 , 选 出 新 的 
主 结 点 。 

(2) 副本 集中 主 结 点 突然 失去 了 其 他 大 多 数 结 点 的 心跳 , 主 结 点 会 把 自己 降级 为 副本 
结 点 。 这 是 为 了 防止 网 络 原因 使 主 结 点 和 其 他 副本 结 点 断 开 时 ,其 他 的 副本 结 点 中 推举 出 
了 一 个 新 的 主 结 点 ,如 此 一 来 ,一 旦 原来 的 主 结 点 没有 降级 ,那么 网 络 恢复 之 后 ,副本 集 就 会 
拥有 两 个 主 结 点 。 如 果 客 户 端 继续 运行 ,就 会 对 两 个 主 结 点 都 进行 读 写 操作 , 导 致 副本 集 
混乱 。 


4.6 本章 小 结 

通过 本 章 的 学 习 , 我 们 由 浅 入 深 对 MongoDB 副本 集 进行 了 学 习 , 其 中 包括 副本 集 概 
述 .副本 集成 员 .副本 集 部 署 、 副 本 集 操 作 以 及 副本 集 机 制 。 希 望 读者 可 以 掌握 MongoDB 
副本 集 的 部 署 与 操作 。 


47 课 后 习题 


一 、 填空 题 

1. MongoDB 副本 集 的 成 员 包 括 ` 副 本 结 点 和 

2. MongoDB 官网 推荐 副本 集成 员 个 数 为 Fa 

3. 副本 集 主 要 功能 包括 ` \. 读 写 分 离 。 

4. 开启 安全 认证 时 , 密 钥 文件 权限 一 定 要 等 于 或 小 于 
5. 副本 集成 员 配置 信息 中 参数 表示 优先 级 。 

二 、 判 断 题 


1. 推荐 使 用 主 / 从 复制 方式 实现 MongoDB 复制 。 

2. MongoDB 副本 集 通 过 同时 存在 多 个 主 结 点 ,实现 故障 自动 转移 。 
3. 副本 结 点 与 主 结 点 同步 副本 是 异步 同步 。 

4. 仲裁 结 点 不 会 同步 主 结 点 的 数据 副本 。 


一 一 一 一 
v v vuv 
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5. 配置 副本 集成 员 需要 在 主 结 点 进行 操作 。 ( ) 
三 、 选 择 题 
1. 下 列 选项 中 ,( ) 不 属于 副本 集成 员 状 态 。 
A. START B. DOWN 
C. RECOVERING D. UNKNOWN 
2. 下 列 选项 中 ,( ) 不 属于 副本 集 的 功能 。 
A. 宛 余 的 数据 B. 负载 均衡 
C. 读 写 分 离 D. 自动 故障 转移 
3. MongoDB 副本 集中 ,副本 结 点 是 如 何 获得 主 结 点 数据 ? C ) 
A. 自动 拉 取 B. 心跳 C. 自动 推送 D. 手动 
四 、 简 答题 
请 描述 MongoDB 的 副本 集 时 如 何 同步 数据 ? 
五 、 操 作 题 


在 开启 安全 认证 的 MongoDB 副本 集 ,实现 以 下 的 操作 : 

CD 将 服务 器 nosql02 由 仲裁 结 点 更 改 为 副本 结 点 。 

(2) 将 服务 器 nosql03 中 延迟 结 点 修改 为 正常 的 副本 结 点 , 即 优 先 级 为 1, 非 隐藏 和 延 
AX og. 

(3) 在 服务 器 nosql03 创建 新 的 数据 目录 和 日 志文 件 , 以 副本 集 模式 启动 新 的 
MongoDB, 此 MongoDB 使 用 27016 端口 ,并 指定 keyFile 文件 。 

(4) 在 副本 集 主 结 点 将 服务 器 nosql03 上 新 启动 的 MongoDB 以 副本 结 点 的 形式 添加 
到 副本 集 。 
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学 习 目标 


* 了解 MongoDB 分 片 

* 理解 MongoDB 分 片 策略 

* 熟悉 MongoDB 分 片 集群 架构 

* 掌握 MongoDB 分 片 集群 的 部 署 
* 熟悉 MongoDB 分 片 的 基本 操作 


MongoDB 分 片 是 MongoDB 支持 的 另 一 种 集群 形式 , 它 可 以 满足 MongoDB 数据 量 呈 
爆发 式 增长 的 需求 。 当 MongoDB 存储 海量 的 数据 时 ,一 台 机 器 可 能 无 法 满足 数据 存储 的 
需求 ,也 可 能 无 法 提供 可 接受 的 读 写 吞 吐 量 ,这 时 ,我 们 就 可 以 通过 在 多 台 机 器 上 对 海量 数 
据 进行 划分 ( 即 分 片 ) ,使 得 MongoDB 数据 库 系 统 能 够 存储 和 处 理 更 多 的 数据 。 因 此 ,本 章 
我 们 将 针对 MongoDB 分 片 的 相关 知识 进行 详细 讲解 。 


5.1 分 片 概述 


分 片 Csharding) 技 术 是 开发 人 员 用 来 提高 数据 存储 和 数据 读 写 吞吐 量 常用 的 技术 之 
一 。 简 单 来 说 ,分 片 主要 是 将 数据 进行 划分 ,然后 将 它们 分 别 存放 于 不 同 机 器 上 的 过 程 。 通 
过 使 用 分 片 可 以 实现 降低 单个 机 器 的 压力 和 处 理 更 大 的 数据 负载 功能 。 分 片 与 副本 集 主要 
区 别 在 于 ,分 片 是 每 个 结 点 存储 数据 的 不 同 片段 ,而 副本 集 是 每 个 结 点 存储 数据 的 相同 
副本 。 

所 有 数据 库 都 可 以 进行 手动 分 片 (manual sharding) .因此 ,分 片 并 不 是 MongoDB 特有 
的 。 不 同类 型 的 数据 均 可 以 通过 人 为 操作 被 分 配 到 不 同 的 数据 库 服 务 器 上 ,然而 ,人 工分 片 
是 需要 编写 相关 代码 来 实现 分 片 功能 ,并 且 不 容易 维护 (如 集群 中 结 点 发 生变 动 的 情况 ) 。 
MongoDB 数据 库 可 以 实现 自动 分 片 , 它 内 置 了 多 种 分 片 逻辑 ,使 得 MongoDB 可 以 自动 处 
理 分 片上 数据 的 分 布 .也 可 以 很 容易 地 管理 分 片 集群 。 

数据 量 太 大 ,可 能 导致 本 地 磁盘 不 足以 存储 ;为 了 提高 数据 库 性 能 ,从 而 将 海量 数据 存 
储 在 内 存 中 ,可 能 导致 单个 MongoDB 数据 库 内 存 不 足 ; 若 出 现 数 据 请 求 量 太 大 ,可 能 导致 
J£. MongoDB 机 器 不 能 满足 读 写 数据 的 性 能 。 若 是 出 现 这 三 种 情况 ,我 们 就 可 以 使 用 
MongoDB 的 分 片 技术 来 解决 。 
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5.0 ”分 片 策略 


MongoDB 之 所 以 能 够 实现 自动 分 片 ,是 因为 其 内 置 了 分 片 策略 。MongoDB 通过 分 片 
键 (shard key) 将 集合 中 的 数据 划分 为 多 个 块 (chunk)( 默 认 大 小 为 64MB ,每 个 块 均 表示 集 
合 中 数据 的 一 部 分 ) ,然后 MongoDB 根据 分 片 策略 将 划分 的 块 分 发 到 分 片 集群 中 。 注 意 ， 
分 片 键 可 以 是 集合 文档 中 的 一 个 或 多 个 字段 。 

MongoDB 的 分 片 策略 主要 包括 范围 分 片 和 哈 希 分 片 两 种 ,具体 介绍 如 下 。 


1. 范围 分 片 (range sharding) 


MongoDB 根据 分 片 键 的 值 范 围 将 数据 划分 为 不 同 块 ,每 个 分 片 都 包含 了 分 片 键 在 一 
定 范围 内 的 数据 。 这 样 的 话 , 若 有 文档 写 人 时 ,MongoDB 会 根据 该 文档 的 分 片 键 ,从 而 交 
由 指定 分 片 服 务 器 去 处 理 。 下 面 , 通 过 一 张 图 来 介绍 范围 分 片 策略 ,具体 如 图 5-1 所 示 。 


[xs] X12} | [1x23] 


Shard A Shard B. Shard C 


图 5-1 范围 分 片 


从 图 5-1 中 可 以 看 出 , 若 文档 分 片 键 的 值 范围 在 LminKey,10) 中 , 则 该 文档 需要 交 由 分 
片 服务 器 A 进行 相关 处 理 ; 若 文档 分 片 键 的 值 范围 在 [10,20) 中 , 则 该 文档 需要 交 由 分 片 服 
务 器 B 进 行 相关 处 理 ; 若 文档 分 片 键 的 值 范 围 在 [20, maxKey) 中 , 则 该 文档 需要 交 由 分 片 
服务 器 C 进行 相关 处 理 。 

使 用 基于 范围 分 片 时 ,拥有 相近 分 片 键 的 文档 会 存储 在 同一 个 分 片 服务 器 中 ,从 而 提升 
范围 查询 的 效率 。 但 是 , 当 插入 批量 文档 时 ,分 片 键 集中 在 一 定 范围 内 ,就 会 导致 数据 分 布 
不 均匀 ,从 而 导致 其 中 一 个 分 片 服 务 器 负载 过 重 。 


2. 哈 希 分 片 (Hash sharding) 


哈 希 分 片 类 似 于 范围 分 片 , 二 者 的 区 别 在 于 范围 分 片 是 MongoDB 根据 分 片 键 的 值 直 
接 进 行 范围 划分 ,而 哈 希 分 片 则 先 将 分 片 键 的 值 进行 哈 希 计算 ,然后 对 这 些 哈 希 值 进行 范围 
划分 ,从 而 使 得 每 个 分 片 都 包含 了 哈 希 值 在 一 定 范 围 内 的 数据 ;范围 分 片 可 以 支持 复合 分 片 
键 , 而 哈 希 分 片 只 支持 单个 字段 作为 分 片 键 。 哈 希 值 的 随机 性 ,使 得 数据 随机 分 布 在 分 片 集 
群 中 不 同 的 分 片 服务 器 上 。 下 面 ,通过 一 张 图 来 介绍 哈 希 分 片 策略 ,具体 如 图 5-2 Bron 

从 图 5-2 中 可 以 看 出 , 若 文档 分 片 键 的 哈 希 值 为 5, 则 该 文档 需要 交 由 分 片 服 务 器 A 进 
行 相关 处 理 ; 若 文档 分 片 键 的 哈 希 值 为 12, 则 该 文档 需要 交 由 分 片 服务 器 B 进行 相关 处 理 ; 
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DG5] {X:12} | [1x23] 


Shard A Shard B Shard C 


5-2 哈 希 分 片 


若 文档 分 片 键 的 哈 希 值 为 23 , 则 该 文档 需要 交 由 分 片 服务 器 C 进行 相关 处 理 。 

使 用 基于 哈 希 分 片 时 ,拥有 "相近 ?分 片 键 的 文档 不 会 存储 在 同一 个 分 片 服务 器 中 ,这 样 
的 话 ,数据 的 分 离 性 会 更 好 ,可 以 保证 分 片 集群 中 数据 分 布 均衡 。 但 是 ,由 于 数据 是 通过 哈 
希 计 算 进 行 随 机 存放 的 ,因此 会 降低 查询 性 能 。 

注意 : 

。 分 片 键 

(1) 分 片 键 一 旦 指定 ,后 续 则 无 法 改变 ,并 且 只 能 拥有 一 个 分 片 键 。 

(2) 不 允许 在 已 分 片 的 集合 文档 上 插入 没有 分 片 键 的 文档 。 

(D 分 片 键 的 长 度 大 小 ,不 可 超过 512 个 字 节 。 

(4) 用 于 作 分 片 键 的 字段 必须 创建 索引 ,索引 可 以 是 分 片 键 开头 的 复合 索引 。 

* (chunk) Kh 

(1) 小 块 可 以 均匀 地 分 布 数据 ,但 会 导致 迁移 很 频繁 ,这 样 会 增 大 路 由 服务 器 的 开销 。 

(2) 大 块 触发 的 迁移 较 少 ,但 会 导致 数据 分 布 不 均匀 。 

(3) 块 的 大 小 会 影响 要 迁移 块 的 最 大 文档 数 。 

(4) 块 的 分 片 键 值 范围 是 (一 cc, 十 cc) ,其 中 一 ce 表示 最 小 值 (minKey) ,十 cc 表示 最 大 
值 (maxKey)。 


5.3 分 片 集群 架构 


在 MongoDB 分 片 集群 中 ,只 有 各 组 件 间 的 协同 工作 , 才 可 使 得 分 片 集群 正常 和 运行。 在 
学 习 分 片 集群 的 操作 之 前 .有 必要 先 来 学 习 一 下 分 片 集群 架构 。 下 面 . 通 过 一 张 图 来 介绍 分 
片 集群 架构 ,具体 如 图 5-3 所 示 。 

从 图 5-3 中 可 以 看 出 ,分 片 集群 中 主要 由 三 个 部 分 组 成 , 即 分 片 服务 器 (Shard) 、 路 由 服 
务 器 (Mongos) 以 及 配置 服务 器 (Config Server) 组 成 。 其 中 ,分 片 服务 器 有 三 个 , 即 Shardl, 
Shard2 和 Shard3 ;路 由 服务 器 有 两 个 , 即 Mongosl 和 Mongos2; 配 置 服务 器 有 三 个 , 即 主 、 
副 、 副 。 下 面 , 我 们 针对 分 片 集群 架构 中 的 组 成 部 分 进行 详细 介绍 ,具体 如 下 。 


1. 分 片 服务 器 
分 片 服 务 器 即 MongoDB 实例 ( 即 mongod, 用 Shard 表示 )。 分 片 服务 器 是 实际 存储 数 
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C9 


Shardl Shard2 "a — [m] 
Co) UL_ 9| Co 
Co 


副 


Mongos| Mongos2 x 


Config Server 


5-3 分 片 集群 架构 


据 的 组 件 , 持 有 完整 数据 集中 的 一 部 分 ,每 个 分 片 服务 器 都 可 以 是 一 个 MongoDB 实例 ,也 
可 以 是 一 组 MongoDB 实例 组 成 的 集群 (副本 集 )。 从 MongoDB 3.6 开始 ,必须 将 分 片 部 署 
为 副本 集 ,这样 具有 更 好 的 容错 性 。 


2. 路 由 服务 器 


路 由 服务 器 即 mongos, 主 要 提供 客户 端 应 用 程序 与 分 片 集群 交互 的 接口 ,所 有 请 求 都 
需要 通过 路 由 服务 器 进行 协调 工作 。 路 由 服务 器 实际 上 就 是 一 个 消息 分 发 请 求 中 心 , 它 负 
责 把 客户 端 应 用 程序 对 应 的 数据 请 求 转发 到 对 应 的 分 片 服务 器 上 。 应 用 程序 将 查询 ,存储 、 
更 新 等 请 求 原封 不 动 地 发 送 给 路 由 服务 器 。 路 由 服务 器 询问 配置 服务 器 操作 分 片 服务 器 需 
要 获取 哪些 元 数据 ,然后 连接 相应 的 分 片 服务 器 进行 相关 操作 ,最 后 将 各 个 分 片 服务 器 的 响 
应 进行 合并 ,返回 给 客户 端 应 用 程序 。 
生产 环境 中 ,一 个 分 片 集群 通常 会 有 多 个 路 由 服务 器 ,一 方面 可 以 解决 多 个 客户 端 同时 
请 求 , 从 而 达到 负载 均衡 的 效果 ; 另 一 方面 可 以 解决 当 路 由 服务 器 宕 机 时 导致 整个 分 片 集群 
无 法 使 用 的 问题 。 

3. 配置 服务 器 


配置 服务 器 即 Config Server。 在 生产 环境 中 ,通常 需要 多 个 配置 服务 器 ,因为 它 存 储 
了 分 片 集群 的 元 数据 ,并 且 这 些 数据 是 不 允许 丢失 的 。 因 此 ,需要 配置 多 个 配置 服务 器 以 防 
止 数据 丢失 ,即使 其 中 一 台 配 置 服务 器 宕 机 ,我 们 还 有 其 他 配置 服务 器 ,从 而 保证 MongoDB 
分 片 集群 依然 能 够 正常 工作 。 从 MongoDB 3.4 版 本 开始 ,配置 服务 器 必须 部 署 副本 集 ， 
此 我 们 需要 配置 三 个 配置 服务 器 组 成 的 副本 集 。 

配置 服务 器 存储 着 分 片 集群 的 持久 化 元 数据 ,而 路 由 服务 器 存储 着 分 片 集群 的 非 持 久 
化 元 数据 ,这 些 数 据 均 为 内 存 缓存 的 数据 。 当 路 由 服务 器 初次 启动 或 关闭 重启 时 ,就 会 从 配 
置 服务 器 中 加 载 分 片 集群 的 元 数据 。 若 是 配置 服务 器 的 信息 发 生变 化 , 则 会 通知 所 有 路 由 
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服务 器 更 新 自己 的 状态 ,这 样 路 由 服务 器 就 能 继续 准确 地 协调 客户 端 与 分 片 集群 的 交互 
工作 。 


5.4 部 署 分 片 集群 


从 MongoDB 3.6 版 本 开始 ,部署 分 片 集群 时 ,必须 结合 副本 集 使 用 。 由 于 本 书 介绍 的 
MongoDB 版 本 是 4.2, 因 此 将 采用 分 片 和 副本 集结 合 的 模式 部 署 分 片 集群 。 


5.4.1 环境 准备 


由 于 分 片 集群 最 优 部 署 需 要 14 台 服 务 器 ,这 样 部 署 成 本 太 高 ,并 且 配 置 服务 器 和 路 由 
服务 器 本 身 不 存储 真实 数据 ,因此 我 们 将 路 由 服务 器 和 配置 服务 器 与 分 片 服 务 器 共用 同一 
台 服 务 器 , 即 通过 不 同 的 进程 端口 号 区 分 (实际 工作 中 , 则 不 建议 这 样 做 ) 。 

在 第 4 3€ MongoDB 副本 集中 创建 了 三 台 虚 拟 机 , 即 虚拟 机 NoSQL_1、NoSQL_2 和 
NoSQL 3。 下 面 ,通过 一 张 图 来 介绍 MongoDB 分 片 集群 的 具体 规划 ,如 图 5-4 所 示 。 


mongos mongos 
Config Server Config Server Config Server 

主 结 点 副 结 点 副 结 点 
Shard 1 Shard 1 Shard 1 
主 结 点 仲裁 结 点 副 结 点 
Shard 2 Shard 2 Shard 2 
副 结 点 主 结 点 仲裁 结 点 
Shard 3 Shard 3 Shard 3 

仲裁 结 点 副 结 点 主 结 点 

NoSQL 1 NoSQL 2 NoSQL 3 


图 5-4 分 片 集群 的 规划 情况 


从 图 5-4 中 可 以 看 出 ,为 了 保证 不 同 虚拟 机 中 资源 的 平均 分 配 ,我 们 在 三 台 虚 拟 机 中 分 
别 部 署 了 副本 集 的 不 同 结 点 , 即 虚拟 机 NoSQL_1 中 包含 主 结 点 Shardl 、 副 结 点 shard2 和 
仲裁 结 点 Shard3. 虚拟 机 NoSQL_2 中 包含 仲裁 结 点 Shardl, X25 4i Shard2 和 副 结 点 
Shard3 ,虚拟 机 NoSQL_3 中 包含 副 结 点 Shard1 、 仲 裁 结 点 Shard2 和 主 结 点 Shard3。 注 意 ， 
若是 在 单 台 虚拟 机 中 部 署 分 片 副 本 集 的 三 个 主 结 点 或 者 三 个 仲裁 结 点 , 则 会 导致 该 台 虚 拟 
机 负载 过 大 或 负载 空闲 。 

由 于 部 署 分 片 集群 时 ,每 台 虚 拟 机 都 要 启动 不 同 的 服务 进程 ,因此 部 署 分 片 集群 之 前 ， 
需要 清楚 每 台 虚 拟 机 已 占用 的 端口 号 ,从 而 避免 出 现 端 口 冲突 的 情况 。 接 下 来 ,我 们 通过 一 
张 表 来 介绍 分 片 集群 中 端口 号 的 分 配 情况 ,如 表 5-1 所 示 。 
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表 5-1 服务 端口 号 的 分 配 情况 
虚拟 机 | 服务 器 Config 
IP 地 址 Shardl Shard2 Shard3 mongos 

AH 名 称 Server 

NoSQL 1 101 | 192.168.121.134 aa 27020 iod 27021 27022 
o> Nosí " le. * Y ^h "n 

- * 主 结 点 | 仲裁 结 点 | MAA 主 结 点 

27019 27018 27020 27022 

NoSQL 2 | nosql02 | 192.168.121.135 副 结 点 主 结 点 仲裁 结 点 27021 副 结 点 

NoSQL 3 ;alo3 | 192.168.121.136 27020 27019 27018 27022 

gen. hs UIT D 仲裁 结 点 | 副 结 点 主 结 点 副 结 点 


为 了 规范 MongoDB 分 片 集群 相关 服务 器 的 数据 文件 .配置 文件 以 及 日 志文 件 ,这 里 我 
们 通过 使 用 user_mongo 用 户 分 别 在 服务 器 nosql01,nosql02 和 nosql03 的 根 目录 下 创建 一 
些 文件 夹 作为 约定 (车 服务 器 不 存在 user_mongo 用 户 , 则 参考 第 3 章 3.1.2 节 的 内 容 , 创 建 
user mongo 用 户 , 并 授权 ;将 目录 /opt/servers/mongodb_demo/ 更 改 为 用 户 user. mongo 
的 权限 ) ,通过 mkdir -p 命令 创建 如 下 目录 结构 。 

(1) /opt/servers/mongodb demo/shardcluster/: 存放 分 片 集群 的 相关 配置 文件 目录 、 
日 志文 件 目 录 和 数据 目录 等 内 容 。 

(2) /opt/servers/mongodb_demo/shardcluster/configServer/configFile: 存放 配置 服 
务 器 的 配置 文件 。 

(3) /opt/servers/mongodb_demo/shardcluster/configServer/data: 存放 配置 服务 器 
的 数据 文件 。 

(4) / opt/servers/mongodb | demo/shardcluster/configServer/logs: 存放 配置 服务 器 
的 日 志文 件 。 

(5) /opt/servers/mongodb_demo/shardcluster/shard/configFile: 存放 分 片 服务 器 的 
配置 文件 。 

(6) /opt/servers/mongodb demo/shardcluster/shard/shardl data; 存放 分 片 服务 器 
1 的 数据 文件 。 

(7) /opt/servers/ mongodb demo/shardcluster/shard/shard2 data; 存放 分 片 服务 器 
2 的 数据 文件 。 

(8) /opt/servers/ mongodb demo/shardcluster/shard/shard3 data: 存放 分 片 服 务 器 
3 的 数据 文件 。 

(9) /opt/servers/mongodb_demo/shardcluster/shard/logs: 存放 分 片 服 务 器 的 日 志 
文件 ; 

(10) /opt/servers/mongodb demo/shardcluster/mongos/configFile: 存放 路 由 服务 器 
的 配置 文件 。 

(11) /opt/servers/mongodb_demo/shardcluster/mongos/logs: 存放 路 由 服务 器 的 日 
志文 件 。 

接 下 来 ,我 们 需要 分 别 在 三 台 服 务 器 (nosql01、nosql02 和 nosql03) 的 配置 服务 器 、 分 片 
服务 器 以 及 路 由 服务 器 的 日 志 目 录 下 ,创建 对 应 的 日 志 管 理 文件 。 这 里 我 们 以 服务 器 
nosql01 为 例 . 具 体 如 下 : 
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# 配 置 服务 器 日 志 管 理 文件 
Stouch /opt/servers/mongodb demo/shardcluster/configServer/logs/config server.log 
考分 片 服务 器 1 的 日 志 管理 文件 


Stouch /opt/servers/mongodb demo/shardcluster/shard/logs/shardl.log 
HORIZ AE 2 的 日 志 管理 文件 


Stouch /opt/servers/mongodb_demo/shardcluster/shard/1ogs/shard2.1og 
# 分 片 服务 器 3 的 日 志 管理 文件 

Stouch /opt/servers/mongodb demo/shardcluster/shard/logs/shard3.log 
# 路 由 服务 器 日 志 管理 文件 

Stouch /opt/servers/mongodb demo/shardcluster/mongos/logs/mongos.log 


执行 上 述 命令 后 ,查看 是 否 成 功 创建 配置 服务 器 、 分 片 服务 器 (1、2、3)、 路 由 服务 器 的 日 


志 管 理 文件 ,这 里 以 查看 服务 器 nosql01 上 的 配置 服务 器 日 志 管 理 文件 为 例 进行 演示 ,具体 
效果 如 图 5-5 所 示 。 


i 192.168.121.134 - SecureCRT [ois ba 
We El View Opiom: Trenes Scipt Tools Window Help 


P 192.168.121.134 


192.168.121.135 | 4 192.168.121.136 4 
user-mongoánosqTOl shardcTuster]$ touch /opt/servers/mongodb. demo/shardcTuster /conf Tgser ver /Togs /coni 
| server. 


user-mongoénosql01 shardcluster]$ touch /opt/servers/mongodb. demo/shardcluster /shard/1ogs/shard2. 109 
user-mongo$nosql01 shardcluster]$ touch /opt/servers/mongodb. demo/shardc luster /shard/1ogs/shard3. log 
user mongoénosql01 shardcluster]$ touch /opt/servers/mongodb. demo/shardcluster /mongos /10gs /mongos. 10g 
[user mongo@nosqlo1 shardcluster]$ 11 

total 0 

drwxrwxr-x 5 user mongo user mongo 45 May 5 19:42 configserver 

drwxrwxr-x 4 user-mongo user-mongo 34 May 5 19:45 

drwxrwxr-x 7 user-mongo user mongo 88 May 5 19:44 shard 

[user-mongoénosqi0l s ester cd configserver/ 

user -ongoenosq101 configserver]s TI 

tota 

drwxrwxr-x 2 user mongo user mongo 6 May 5 19:40 configrile 

drwxrwxr-x 2 user mongo user mongo 6 May 5 19:41 data 

drwxrwxr-x 2 user-mongo user mongo 30 May 5 19:55 logs 

user-mongoànosq]0l configserver]$ cd logs/ 

user mongoénosql01 logs]$ l1 


total 0 
-rw-rw-r-- 1 user mongo user mongo 0 May 5 19:55|config. server. log 
[user mongoünosql01 1095]$ M 


Ready ssh2:AES-256-CTR 26, 28 26 Rows, 103 Cols VT100 CAP NUM 


ot 
user. mongolinosql01 reu touch /opt/servers/mongodb. demo/shardcluster/shard/logs/shard1. log 


图 5-5 配置 服务 器 的 日 志 管理 文件 


从 图 5-5 中 可 以 看 出 ,我 们 已 经 成 功 创建 配置 服务 器 的 日 志 管理 文件 。( 注 : 重复 上 述 


步骤 ,在 服务 器 nosql02 和 服务 器 nosql03 根 目 录 下 创建 同样 的 目录 结构 以 及 日 志 管 理 文 
件 , 这 里 不 再 缆 述 ) 。 至 此 ,我 们 完成 了 MongoDB 分 片 集群 的 环境 准备 工作 。 


e RED: 查看 端口 占用 情况 
在 分 配 端口 号 前 ,需要 确保 这 些 端口 号 不 与 系统 中 其 他 程序 使 用 的 端口 号 冲突 ,可 在 


Centos 中 安装 netstat 工具 查看 端口 占用 情况 ,具体 命令 如 下 : 


# 安 装 netstat 工具 
$yum install net-tools -y 
# 查 看 端口 号 占用 情况 


Snetstat -ant 


5.4.2 ”部署 MongoDB 


由 于 MongoDB 分 片 集群 是 基于 MongoDB 的 不 同 角色 组 建 的 ,因此 部 署 MongoDB 分 
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片 集群 的 基础 仍 是 部 署 MongoDB。 部 署 MongoDB 的 具体 步骤 如 下 : 

(1) 将 MongoDB 安装 包 上 传 到 服务 器 nosql01 的 /opt/software/ 目 录 下 。 

(2) 将 MongoDB 安装 包 的 用 户 和 用 户 组 权限 修改 为 user_mongo。 

(3) 解压 安装 MongoDB, $4 MongoDB 安装 包 解压 到 目录 /opt/servers/mongo_demoy/ 
shardcluster/ 下 ,具体 命令 如 下 : 


Star -zxvf /opt/software/mongodb-linux-x86 64-rhel70-4.2.2.tgz -C /opt/ 
servers/mongodb demo/shardcluster/ 


(4) 解压 完 MongoDB X% £1 Jr «3E A 8| /opt/servers/mongodb. demo/shardcluster A 
录 , 如 果 觉 得 解压 后 的 文件 名 过 长 ,可 以 对 文件 进行 重 命名 ,具体 命令 如 下 : 


Smv mongodb-linux-x86 64-rhel70-4.2.2/ mongodb 


(5) 将 服务 器 nosql01 上 的 mongoDB 安装 目录 分 发 到 服务 器 nosql02 和 nosql03 E, 
具体 命令 如 下 : 


$scp -r /opt/servers/mongodb demo/shardcluster/mongodb user_mongoenosq102:/opt/ 
servers/mongodb demo/shardcluster/ 
$scp -r /opt/servers/mongodb demo/shardcluster/mongodb user mongo68nosq103: /opt/ 
servers/mongodb demo/shardcluster/ 


执行 上 述 命令 后 ,需要 按照 提示 内 容 连接 服务 器 并 且 输入 用 户 user. mongo 的 密码 , 即 
123456 ,按照 提示 输入 后 ,实现 服务 器 nosql01 的 mongodb 目录 会 分 发 到 服务 器 nosql02 和 
nosql03 上 ,具体 如 图 5-6 .图 5-7 和 图 5-8 所 示 。 

[图 192.168.121.134 - SecureCRT LeS) 


File Edit View Options Transfer Script Tools Window Help 


drwxrwxr-x 4 user_mongo user_mongo 34 May 


drwxrwxr-x 5 user_mongo user_mongo 45 May 5 19:42 confi 
drwxrwxr-x 3 user mongo user mongo 129 May 5 20:21 
5 19 
drwxrwxr-x 7 user mongo user cmongo 88 May 5 19 
$ 


[user_mongoenosq101 shardcluster 


Ready ssh2: AES-256-CTR 7, 36 7 Rows, 74 Cols VT100 CAP 


5-6 ”服务 器 nosql01 的 mongodb 目录 


192.168.121.135 - SecureCRT |S ”| 


File Edit View Options Transfer Script Tools Window Help 
5) 2.3 3x); Enter host <Alt+R> 


*/ 192.168.121.134 | 1719216821135 x | $? 192.168.121.136 


user-mongoéánosqT02 shardcTuster 
total 0 

drwxrwxr-x 5 user mongo user mongo 45 May 5 19:50 confi. 
drwxrwxr-x 3 user mongo user mongo 129 May 5 20:25[mongodb] v” 
drwxrwxr-x 4 user mongo user mongo 34 May 5 19:52 mongos 
drwxrwxr-x 7 user mongo user mongo 88 May 5 19:51 shard 

[user mongoenosq102 shardcluster]$ 


Ready ssh2: AES-256-CTR. 7, 36 7 Rows, 74 Cols VT100 CAP 


5-7 服务 器 nosql02 的 mongodb 目录 


$53 MongoDB 分 片 


192.168.121.136 - SecureCRT Le 1o | 

File Edit View Options Transfer Script Tools Window Help 

Sac S) Gi) ad Enter host <Alt+R> dad ^ dà La tas 3 We o EH 

5 192.168.121.134 | 4? 192.168.121.135 |4? 192168122136 x | 

user mongoünosqT03 shardcTuster]$ TT 

total 0 

drwxrwxr-x 5 user mongo user mongo 45 May ver 


drwxrwxr-x 3 user_mongo user_mongo 129 May 
drwxrwxr-x 4 user mongo user mongo 34 May 
drwxrwxr-x 7 user mongo: User mongo 88 May 
[user_mongo@nosq103 si ardcluster]$ 


Ready ssh2: AES-256-CTR. 7, 36 7 Rows, 74 Cols VT100 


5-8 服务 器 nosql03 的 mongodb 目录 


5.4.3 Él Config Server 


上 一 小 节 完 成 了 MongoDB 的 部 署 。 本 节 我 们 将 部 署 Config Server, 具 体 步 又 如 下 。 


1. 创建 配置 文件 


首先 ,使 用 user mongo 用 户 在 服务 器 nosql01 的 /configServer/configFile/ 目 录 下 , 创 
建 配置 文件 mongodb_config.conf, 用 于 启动 配置 服务 器 ( 即 Config Server? ,具体 命令 如 下 : 


Stouch /opt/servers/mongodb demo/shardcluster/configServer/configFile/mongodb config 


-conf 


然后 ,执行 vi mongodb. config.conf 命令 编辑 配置 文件 mongodb. config.conf ,添加 配置 


服务 器 的 相关 参数 ,具体 命令 如 下 : 


# 数 据 文件 存放 位 置 


dbpath= /opt/servers/mongodb demo/shardcluster/configServer/data 


# 日 志文 件 


logpath=/opt/servers/mongodb demo/shardcluster/configServer/logs/config server.log 


Hm 

port-27022 

# 绑 定 服务 IP 

bind ip-nosql101 

# 使 用 追加 的 方式 写 日 志 
logappend=true 

# 以 守护 进程 的 方式 运行 MongoDB 
fork=true 

# 最 大 同时 连接 数 
maxConns=5000 

# 复 制 集 名 称 

replSet-configs 

# 声 明 这 是 一 个 集群 的 Config Server 


configsvr-true 


最 后 ,将 配置 文件 mongodb config. conf 通过 scp 命令 分 发 到 服务 器 nosql02 和 


nosql03 的 目录 configFile 下 ,具体 命令 如 下 : 
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# 分 发 到 服务 器 nosq102 

$scp /opt/servers/mongodb demo/shardcluster/configServer/configFile/mongodb config.conf 
user mongo 

G8nosq102:/opt/servers/mongodb demo/shardcluster/configServer/configFile/ 

## 分 发 到 服务 器 nosq103 

$scp /opt/servers/mongodb demo/shardcluster/configServer/configFile/mongodb config.conf 
user mongo 

&nosq103:/opt/servers/mongodb demo/shardcluster/configServer/configFile/ 


这 里 需要 注意 的 是 ,参数 bind ip 是 根据 当前 服务 器 的 IP 地 址 或 主机 名 进行 修改 的 。 
行 上 述 命令 后 ,我 们 必须 修改 服务 器 nosql02 和 nosql03 配置 文件 mongodb_config.conf 
中 的 参数 bind_ip 的 值 ,即将 bind. ip 的 值 修改 为 对 应 服务 器 的 TP 地 址 或 主机 名 。 


2. 启动 Config Server 


分 别 在 三 台 服 务 器 ( 即 nosql0l .nosql02 和 nosql03) MongoDB 安装 目录 的 bin 目录 下 
通过 配置 文件 方式 启动 Config Server, 具 体 命令 如 下 : 


$./mongod - f /opt/servers/mongodb demo/shardcluster/configServer/configFile/mongodb _ 
config.conf 


执行 上 述 命 令 后 ,控制 台 会 输出 Config Server 服务 启动 信息 , 若 出 现 successfully. W) 
说 明 Config Server 启动 成 功 , 具 体 如 图 5-9 .图 5-10 和 图 5-11 所 示 。 
[i 192.168.121.134 - SecureCRT Ces) 


Fle Edt View Optone Transfer Seript Toole Window Help 


Enter host <Alt+R» Gia 


3719216821134 x je 168.121.135 | @ 192.168.121.136 1» 


'User-mon 'opt/servers7mongodb. deno/shardcTuster /confTgserver conf TgFTTe/mongodb conFTg-conf | 
about to fork child process, wafting until server is ready for connections. 
forked process: 2509 


child process started [sggeessfuriv] parent exiting 
[user mongo&nosql01 bin 


Ready ssh2: AES-256-CTR — 5, 27 _5 Rows, 120 Cols VT100 CAP NUM 


图 5-9 服务 器 nosql01 中 Config Server 启动 信息 


Bi] 192.168.121.135 - SecureCRT lelo Es) 


Fle Edt View Options Transfer Scipt Toole Window Help 
Enter host <Alt+R> 


4P 192.168.121.134 | w 192168.12113s x | @ 192.168.121.136 4 


user -mongoénos. TnI$ - t/servers /mongo ShardcTuster /cont 1gserver /cont 1gr TTe/mongodb. config.conf 
about to fork child process, waiting until server is ready for connections k * d * 
forked process: 2558 


child process started parent exiting 
[user mongo&nosql102 bin. 


Ready Ssh2: AES-256-CIR — 5, 27 5 Rows, 120 Cols VT100 CAP NUM 


图 5-10 ”服务 器 nosql02 中 Config Server 启动 信息 
从 图 5-9、 图 5-10 和 图 5-11 中 可 以 看 出 ,我 们 已 经 成 功 启动 副本 集 模式 的 Config Server. 
3. 配置 Config Server 副本 集 


待 三 台 服 务 器 的 Config Server 启动 完成 后 ,选择 任意 一 台 服 务 器 通过 MongoDB 客户 
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192168.121.136 - SecureCRT 
Fle Edit View Optons Transfer Script Tools Window Help 


Enter host <Alt+R> F 54 


4% 192.168.121.134 | V 192168121135 | v 192168121136 x | »E 


user-mongoRnosqTU3 bin]$ -/mongod -F 7opt/servers]mongodb demo]shardcTuster7configserver/confTgFTTe/mongodb. cont Tg. conf" 
about to fork child process, waiting until server is ready for connections. 

forked process: 2478 

child process started parent exiting 

[user mongo&nosq103 bin 


Ready Ssh2:AES-256-CIR — 5, 27 _5 Rows, 120Cols VT100 CAP NUM 


5-11 服务 器 nosql03 中 Config Server 启动 信息 


端 对 Config Server 进行 初始 化 副本 集 的 操作 ,这 里 以 服务 器 nosql01 为 例 , 在 MongoDB 的 
bin 目录 下 登录 MongoDB 客户 端 ,具体 命令 如 下 : 


$./mongo --host nosq101 --port 27022 


执行 上 述 命令 后 ,成功 登录 MongoDB 客户 端 , 如 图 5-12 所 示 。 


图 192168121134 - SecureCRT 
le Edit View Options Transfer Script Tools Window Help 


VASTE RE Ah asd 313 e d 


192168121134 x 192.168.121.135 | 192.168.121.136 S 
[Luser -mengoBposqTÓr BTW. mongo -host nosgICI —port 

MongoDB shell version v4.2- 

Connecting to: mongodb://nàsq101 :27022/?compressors«disablec&gssapiServiceNamesmongodb 

Implicit Session; Session { id" : UUIDC ba0ccc7b-a9f5-4c6b-abe0-a0f95775d3f2 ) } 


MongoDB server version: 
Server has startup warnings: 
2020- 22:28:28. 


920+0800 I CONTROL [imitandlisten. 
CONTROL [initandlisten] ** WARNING: Access contro] is not enabled for the databas 


e. 
CONTROL  [initandlisten: Read and write access to data and configuration is unrestricted. 


** WARNING: /Sys/kernel/mn/transparent. hugepage/enabled is 'always'. 
- we suggest setting it to "never 


CONTROL [initandlisten] ** wARNTNG: /sys/kernel/mm/transparent. hugepage/defrag is 'always'. 
-e We suggest setting it to "never 
coNTROL Linitandlisten 


8 
El 
E] 
H 
3 


:2 
2020-05-05T22: 


Enable wongoDB's free cloud-based monitoring service, which will then receive and display 
metrics about your deployment (disk utilization, CPU, operation statistics, etc). 


The monitoring data will be available on a MongoDB website with a unique URL accessible to you 
and anyone you share the URL with. MongoDB may use this information to make product 
improvements and to suggest MongobB products ard deployment options to you. 


To enable free monitoring, run the following command: db.enablerreewonitoringO, 
To permanently disable this reminder. run the following command: db.disablerreewonitoringO) 


>E 
Ready ssh2: AES-256-CTR 30, 3 30 Rows, 133 Cols VT100 CAP NUM 


Æ 5-12 MongoDB 客户 端 


在 图 5-12 中 ,对 副本 集 进行 初始 化 操作 ,具体 命令 如 下 : 


»rs.initiate() 
configs:SECONDARY»rs.add('nosq102:27022') 
configs:PRIMARY»rs.add('nosq103:27022') 


执行 上 述 命令 后 ,查看 控制 台 输 出 信息 ,如 图 5-13、 图 5-14 和 图 5-15 所 示 。 

在 图 5-15 中 ,控制 台 输出 的 内 容 , 详 细 介绍 请 参考 第 4 章 4.3.3 节 的 内 容 ,这 里 不 作 效 
述 。 我 们 可 以 通过 执行 rs.status() 命 令 查看 副本 集 状 态 , 从 而 判断 副本 集 是 否 部 署 成 功 , 部 
署 成 功 后 的 控制 台 输 出 信息 请 参考 第 4 章 4.4.1 节 的 内 容 。 

至 此 ,完成 分 片 集群 中 以 副本 集 模式 部 署 Config Server。 
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gl 192.168.121.134 - SecureCRT Le 1 | 


(fe Ri en Opus Tue Ro ooh iden Fep 
Enter host <Alt+R> 


"no configuration specified. Using a default configuration for the set", 
n0sq101:27022", 


;.lastoprime" E: Timestamp(1588689453, 1), 
"electionid" : objectid(" 000000000000000000000000") 


Hastconvirtedoprine" : Timestamp(0, 0), 


"$clusterTime" 
TClusterTime" : Timestamp(1588689453, 1), 
"signature. 
BinData(0, "AAAAAAAAAAAAAAAAAAAAAAAAAAA") , 
n kasta" : NumberLong(0) 
i 


"operationTime" : Timestamp(1588689453, 1) 
Conf igs : SECONDARY» 


Ready ssh2: AES-256-CTR. 60, 18 60 Rows, 92 Cols  VT100 CAP NUM 


图 5-13 ”初始 化 副本 集 模式 中 的 主 结 点 


192.168.121.134 - SecureCRT arr 


Lk tdt Ver opone Taie Saip Toal Wodoe teh 


| $ 192.168.121.134 x | @ 192.168.121.135 | @ 192.168.121.136 
poige: 1SECONDARY» |rs. add(' nosq102:27022') 


1, 
"Silesc&ts" :{ 
"IastopTime" : 


m 


"electionid" : objectid("7fffffff0000000000000001") 


í 
É pest np (13 10689489; 1), 
: NumberLong(1) 


Hasccomictedoprine" : Timestamp(1588689478, 1), 
"$clusterTime" : 
"clusterrime" : Timestamp(1588689489, 1), 


"signature 1 
"has BinData(0, "AAAAAAAAAAAAAAAAAAAAAAAAAAA s") , 
"keyrd" : NumberLong(0) 


i "operationTime”: Timestamp(1588689489, 1) 


configs :PRIMARY> B 


Ready ssh2: AES-256-CTR. 60, 18 60 Rows, 92 Cols  VT100 CAP NUM 


图 5-14 将 服务 器 nosql02 以 副 结 点 添加 至 副本 集中 


5.44 部 署 Shard 
上 一 小 节 完 成 了 Config Server 的 部 署 。 本 节 我 们 将 部 署 Shard, 具 体 步骤 如 下 。 
1. 创建 配置 文件 


CD 服务 器 nosql01。 

在 服务 器 nosql01 的 /shard/configFile 目录 下 ,创建 三 个 配置 文件 mongodb_shard1. 
conf,mongodb shard2.conf 和 mongodb_shard3.conf, 用 于 通过 配置 文件 的 方式 启动 副本 
集 模式 的 Shard, 具 体 命令 如 下 : 
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192.168.121.134 - SecureCRT Le 1 | 
File Edit View Options Transfer Script Tools Window Help 
SJ $3 Xx. Enter host <Alt+R> "T" T 


í 
Timestamp(1588689499, 1), 
: NumberLong(1) 


Jaectionrdr : objectId("7fffffff0000000000000001") 
astCommittedopTime”: Timestamp(1588689489, 1), 
"$clusterTime" : 


"clusterT Timestamp(1588689499, 1), 
"signatur 


"has! BinData(0, "AAAAAAAAAAAAAAAAAAAAAAAAAAA") , 
n "keyrId' NumberLong(0) 
^operationrime" : Timestamp(1588689499, 1) 


H 
configs:PRIMARY» M 


Ready ssh2: AES-256-CTR. 60, 18 60 Rows, 92 Cols  VT100 CAP NUM 
OO — á— E eA 


图 5-15 ”将 服务 器 nosql03 以 副 结 点 添加 至 副本 集中 


Stouch /opt/servers/mongodb demo/shardcluster/shard/configFile/mongodb shardl.conf 
Stouch /opt/servers/mongodb demo/shardcluster/shard/configFile/mongodb shard2.conf 
Stouch /opt/servers/mongodb demo/shardcluster/shard/configFile/mongodb shard3.conf 


Tut Exe Je BEDU I 命令 ,查看 三 个 配置 文件 是 否 创建 成 功 ,具体 如 图 5-16 
所 示 。 


192.168.121.134 - SecureCRT 
File Edit View Options Transfer Script Tools Window Help 


X], Enter host <Alt+R> "CNW 


| 192168121134 x | @ 192.168.121.135 | @ 192.168.121.136 


-rw-rw-r-- 1 user mongo user mongo 0 May 5 23 
1 user mongo user mongo 0 May EH 2 mongodb. shard2. conf 


:14 mongodb. shard1.conf 


-rW-rw-r-- 1 user mongo user mongo 0 May 


:15 mongodb shard3. conf 
[user. mongo&nosql0i configFile]$ 


Ready ssh2: AES-256-CTR. 6, 34 6Rows, 74 Cols VT100 CAP 


图 5-16 创建 三 个 配置 文件 


从 图 5-16 中 可 以 看 出 ,配置 文件 mongodb_shardl. conf, mongodb_ shard2. conf 和 
mongodb_shard3.conf 已 经 创建 成 功 。 执 行 vi 命令 ,在 配置 文件 mongodb_shardl.conf 中 
添加 分 片 服 务 器 1 的 相关 参数 ,具体 如 下 : 


dbpath= /opt/servers/mongodb demo/shardcluster/shard/shardl data 


logpath=/opt/servers/mongodb demo/shardcluster/shard/logs/shardl.log 
port=27018 


logappend=true 
fork=true 
maxConns=5000 
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在 配置 文件 mongodb_shardl.conf 中 添加 完 上 述 内 容 后 ,执行 vi 命令 ,在 配置 文件 
mongodb_shard2.conf 中 添加 分 片 服务 器 2 的 相关 参数 ,具体 如 下 : 


在 配置 文件 mongodb_shard2.conf 中 添加 完 上 述 内 容 后 ,执行 vi 命令 ,在 配置 文件 
mongodb_shard3.conf 中 添加 分 片 服务 器 3 的 相关 参数 ,具体 如 下 : 


执行 上 述 操作 后 ,至 此 ,我 们 完成 对 服务 器 nosql01 中 分 片 集群 的 Shard 配置 。 

(2) 服务 器 nosql02 。 

在 服务 器 nosql02 的 /shard/configFile 目录 下 ,创建 三 个 配置 文件 mongodb_shard1. 
conf,mongodb. shard2.conf 和 mongodb_shard3.conf, 用 于 通过 配置 文件 的 方式 启动 副本 
集 模式 的 Shard, 具 体 命 令 如 下 : 


执行 上 述 命令 后 ,再 执行 l 命令 ,查看 三 个 配置 文件 是 否 创建 成 功 ,具体 如 图 5-17 所 示 。 
从 图 5-17 中 可 以 看 出 ,配置 文件 mongodb_shardl.conf、mongodb_shard2.conf 和 
mongodb_shard3.conf 已 经 创建 成 功 。 
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-rw-rw-r-- 1 user mongo user mongo 0 
-rW-rw-r-- z user_mongo user_mongo H 
-rw-rw-r-- 1 user mongo user mongo 

[user. mongo&nosq102 configrile]$ 


执行 Yi 命令 ,在 配置 文件 mongodb. shardl.conf 中 添加 分 片 服务 器 1 的 相关 参数 ,具体 如 下 : 


在 配置 文件 mongodb_shardl.conf 中 添加 完 上 述 内 容 后 ,执行 vi 命令 ,在 配置 文件 
mongodb_shard2.conf 中 添加 分 片 服务 器 2 的 相关 参数 ,具体 如 下 : 


在 配置 文件 mongodb_shard2.conf 中 添加 完 上 述 内 容 后 ,执行 vi 命令 ,在 配置 文件 
mongodb_shard3.conf 中 添加 分 片 服务 器 3 的 相关 参数 ,具体 如 下 : 
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执行 上 述 操作 后 ,至 此 ,我 们 完成 对 服务 器 nosql02 中 分 片 集群 的 Shard 配置 。 

(3) 服务 器 nosql03 。 

在 服务 器 nosql03 的 /shard/configFile 目录 下 ,创建 三 个 配置 文件 mongodb_shard1. 
conf .mongodb_shard2.conf 和 mongodb_shard3.conf ,用 于 启动 副本 集 模 式 的 Shard, 具体 
命令 如 下 : 


Stouch /opt/servers/mongodb demo/shardcluster/shard/configFile/mongodb shardl.conf 
Stouch /opt/servers/mongodb demo/shardcluster/shard/configFile/mongodb shard2.conf 
Stouch /opt/servers/mongodb demo/shardcluster/shard/configFile/mongodb shard3.conf 


执行 上 述 命令 后 ,再 执行 | 命令 ,查看 三 个 配置 文件 是 否 创建 成 功 ,具体 如 图 5 
所 示 。 


192.168.121.136 - SecureCRT IE 


File Edit View Options Transfer Script Tools Window Help 


-rw-rw-r-- 1 user mongo user mongo 0 May 5 23:49 mongodb. shard1.conf 
-rw-rw-r-- 1 user -mongo user mongo 0 May 5 23:50 mongodb shard2.conf 
-rw-rw-r-- 1 user mongo FE td 0 May 5 23:50 mongodb. shard3. conf 
[user mongoénosql03 configFile]$ 


Ready ssh2: AES-256-CTR. 6, 34 6Rows, 74 Cols VT100 CAP 


图 5-18 创建 三 个 配置 文件 


从 图 5-18 中 可 以 看 出 ,配置 文件 mongodb_shardl. conf, mongodb | shard2. conf 和 
mongodb_shard3.conf 已 经 创建 成 功 。 执 行 vi 命令 ,在 配置 文件 mongodb_shardl.conf 中 
添加 分 片 服务 器 1 的 相关 参数 ,具体 如 下 : 


dbpath= /opt/servers/mongodb demo/shardcluster/shard/shardl data 
logpath- /opt/servers/mongodb demo/shardcluster/shard/logs/shardl.log 
port-27020 

logappend-true 

fork-true 

maxConns-5000 

bind ip-nosq103 

Shardsvr-true 

replSet-shardl 


在 配置 文件 mongodb shardl.conf 中 添加 上 述 内 容 后 ,执行 vi 命令 ,在 配置 文件 
mongodb, shard2.conf 中 添加 分 片 服 务 器 2 的 相关 参数 ,具体 如 下 : 


dbpath= /opt/servers/mongodb demo/shardcluster/shard/shard2 data 
logpath-/opt/servers/mongodb demo/shardcluster/shard/1ogs/shard2.1og 
port-27019 

logappend-true 

fork-true 


maxConns- 5000 


第 5 章 MongoDB 分 片 


bind ip-nosq103 
shardsvr-true 
replSet-shard2 


在 配置 文件 mongodb. shard2.conf 中 添加 完 上 述 内 容 后 ,执行 vi 命令 ,在 配置 文件 
mongodb_shard3.conf 中 添加 分 片 服务 器 3 的 相关 参数 ,具体 如 下 : 


dbpath=/opt/servers/mongodb demo/shardcluster/shard/shard3 data 
logpath- /opt/servers/mongodb demo/shardcluster/shard/logs/shard3.log 
port-27018 

logappend-true 

fork-true 

maxConns- 5000 

bind ip-nosq103 

Shardsvr-true 

replSet-shard3 


执行 上 述 操作 后 ,我 们 完成 对 服务 器 nosqlo3 中 分 片 集群 的 Shard 配置 。 
启动 Shard 


分 别 在 三 台 服 务 器 (nosql01、nosql02 和 nosql03) 中 MongoDB 安装 目录 的 bin 目录 下 
启动 Shard, 具 体 命 令 如 下 : 


$./mongod -f /opt/servers/mongodb demo/shardcluster/shard/configFile/mongodb shardl.conf 
$./mongod -f /opt/servers/mongodb demo/shardcluster/shard/configFile/mongodb shard2.conf 
$./mongod -f /opt/servers/mongodb demo/shardcluster/shard/configFile/mongodb shard3.conf 


执行 上 述 命令 后 ,查看 控制 台 输 出 Shard 启动 的 信息 ,具体 如 图 5-19 .图 5-20 和 图 5-21 
所 示 。 


jj 192.168.121.134 - SecureCRT 
Fie Edit View Options Transfer Scipt Tools Window Help 


g Enter host <Alt+R> L 


5719216812114 x (osa a 4» 
user-mongoénosqTOi bin]$ jod -F /opt/servers7mongodb- demo/shar dcTuster /shard/contigFiTe/mongodb shardi.conf 


A 
about to fork child process, walting until server is ready for connections. 
forked process: 2774 
child process started successfully, parent exiting 
fuser-mongoénosq101 bin]$ -/mongod'-f /opt/servers/mongodb-demo/shardcluster /shard/configFi 1e/mongodb_shar d2. conf 
about to fork child process, waiting until server is ready for connections 
forked process: 2811 
child process started successfully, parent exiting 
[user -mongotnosq101 bin]$ ./i /opt/servers/nongodb. demo/shar dc user /shard/conf igrie/mongodb. shard3. conf 
about to fork child process, 9 until server is ready for connections. 
forked process: 2848 
child process started successfully, parent exiting 
[user mongo&nosql01 bin]$ 


Ready ssh2: AES-256-CTR — 13, 27 13 Rows, 114 Cols VT100 CAP NUM 


图 5-19 服务 器 nosql01 中 Shard 启动 信息 


从 图 5-19、 图 5-20 和 图 5-21 中 可 以 看 出 ,三 台 服 务 器 启动 Shard 时 ,控制 台 均 输 出 
"child process started successfully” 的 信息 ,因此 说 明 我 们 成 功 启动 Shard。 
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[i 192.168.121.135 - SecureCRT lele] zx J 
Fle Edit View Options Transfer Script Tools Window Help 
LEK Enter host «Alt 5 


4? 192.168.121.134 


192.168.121.136 4 


user mongoéánosqT02 bin]$ ./mongod -f /opt/servers/mongodb demo/shardcTuster/shard/configriTe/mongodb shardi.conf 
about to fork child process, waiting until server is ready for connections. 

forked process: 2725 

child process started successfully, parent exiti 

[user -mongoénosql02 bin]$ ./mongod -P /opt/servers/mongodb. demo/shardcluster/shard/conf igFi1e/mongodb. shard2. conf 
about to fork child process, waiting until server is ready for connections. 

forked process: 2762 
child process started successfully, parent exiting 

(user -mongotnosq102 binl$ -/mongod' -F /opt/servers/mongodb-demo/shardcluster /shard/conf igFT1e/mongodb.shard3. conf 
about to fork child process, waiting until server is ready for connections. 

forked process: 2799 

child process started successfully, parent exiting 

[user mongo&nosq102 bin]$ 


Ready Ssh2: AES-256-CTR — 13, 27 13 Rows, 114 Cols VT100 CAP NUM 


5-20 ”服务 器 nosql02 中 Shard 启动 信息 


192.168.121.136 - SecureCRT l-le ks 


File Edit View Options Transfer Script Tools Window Help 


Enter host <Alt+R> 


4P 192.168.121.134 | $? 192.168. 


user mong 
about to 
forked process: 2633 
child process started successfully, parent exiting 

[user mongotnosq103 bin]$ ./mongod' -F /opt/servers/mongodb. deno/shardcuster /shard/configFi1e/mongodb_shard2. conf 
about to fork child process, waiting until server is ready for connections. 

forked process: 2670 
child process started successfully, parent exiting 

[user_mongoenosq103 bin]$ ./mongod'-f /opt/servers/mongodb. demo/shardcluster /shard/conf igF11e/mongodb. shard3. conf 
about to fork child process, waiting until server is ready for connections. 

forked process: 2707 

child process started successfully, parent exiting 

[user mongo&nosql03 bin]$ 


35 |Y 192.168.121.136 x | 4 
inosqT03 bin]$ /mongoq -F Jopt7servers/mongodb demo/shar dc luster /shard/conf Tr TTe/mongodh shardi. conf | 
ork child process, wai 


ting until server is ready for connections. 


Ready ssh2: AES-256-CTR. 13, 27 13 Rows, 114 Cols VT100 CAP NUM 


图 5-21 服务 器 nosql03 中 Shard 启动 信息 


3. 配置 Shard 副本 集 


三 台 虚 拟 机 的 Shard 启动 完成 后 ,通过 MongoDB 客户 端 分 别 对 三 台 服 务 器 中 的 分 片 
进行 初始 化 副本 集 的 操作 ,具体 步骤 如 下 。 

首先 ,在 服务 器 nosql01 中 登录 MongoDB 客户 端 ,对 分 片 服务 器 Shardl 进行 初始 化 副 
本 集 操作 (副本 集 分 片 Shardl 的 主 结 点 位 于 服务 器 nosql01) ,具体 命令 如 下 : 


# 在 MongoDB 的 bin 目录 下 执行 

$./mongo --host nosq101 --port 27018 

# 初 始 化 ,设置 本 机 为 副本 集 主 结 点 
»rs.initiate() 

# 添 加 副 结 点 

Shardl:SECONDARY» rs.add('nosq102:27019') 
# 添 加 仲裁 结 点 


Shardl:PRIMARY»rs.addArb('nosq103:27020') 


执行 上 述 命令 后 ,我 们 就 完成 了 分 片 服务 器 Shardl 中 副本 集 的 初始 化 配置 。 

注意 : 我 们 可 通过 执行 rs.status() 命 令 查 看 副本 集 状 态 。 

然后 ,在 服务 器 nosql02 中 登录 MongoDB 客户 端 ,对 分 片 服务 器 Shard2 进行 初始 化 副 
本 集 操作 (副本 集 分 片 Shard2 的 主 结 点 位 于 服务 器 nosql02) ,具体 命令 如 下 : 


$53 MongoDB 分 片 161 


41E MongoDB 的 bin 目录 下 执行 

$./mongo --host nosq102 --port 27018 

3L 646, ERES ELS BE AS I E A 
»rs.initiate() 

# 添 加 副 结 点 

shard2:SECONDARY» rs.add('nosq103:27019') 
LLLI EE 
shard2:PRIMARY»rs.addArb('nosq101:27020') 


执行 上 述 命令 后 ,我们 就 完成 了 分 片 服 务 器 Shard2 中 副本 集 的 初始 化 配置 。 
最 后 ,在 服务 器 nosql03 中 登录 MongoDB 客户 端 ,对 分 片 服务 器 Shard3 进行 初始 化 副 
本 集 操 作 ( 副 本 集 分 片 Shard3 的 主 结 点 位 于 服务 器 nosql03) ,具体 命令 如 下 : 


# 在 MongoDB 的 bin 目录 下 执行 

$./mongo --host nosq103 --port 27018 

# 初 始 化 ,设置 本 机 为 副本 集 主 结 点 
»rs.initiate() 

# 添加 副 结 点 

Shard3: SECONDARY» rs.add('nosq101:27019') 
# 添 加 仲裁 结 点 
shard3:PRIMARY>rs.addArb('nosql02:27020') 


执行 上 述 命 令 后 ,我 们 就 完成 了 分 片 服务 器 Shard3 中 副本 集 的 初始 化 配置 。 
至 此 ,我 们 完成 了 分 片 集群 中 三 个 Shard 的 部 署 ,并 且 每 个 Shard 以 副本 集 模式 运行 。 


5.4.5 ”部署 mongos 
上 一 小 节 完 成 了 Shard 的 部 署 。 本 节 我 们 将 部 署 mongos, 具 体 步 又 如 下 。 
1. 创建 配置 文件 


在 服务 器 nosql01 的 /mongos/configFile 目录 下 ,创建 配置 文件 mongodb_mongos. 
conf, 用 于 启动 mongos, 具 体 命 令 如 下 : 


Stouch /opt/servers/mongodb demo/shardcluster/mongos/configFile/mongodb mongos.conf 


执行 上 述 命令 后 ,再 执行 11 命令 ,查看 配置 文件 mongodb mongos.conf 是 否 创 建成 功 ， 
具体 如 图 5-22 所 示 。 
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| 192168121134 x | 9192162121135 | 9 192.168.121.136 4 
user mong SqT0i configrile 

total 0 


-rw-rw-r-- 1 user mongo user mongo 0 May 6 00:14|mongodb. mongos. conf 


[user mongoénosqlO1 configFile]$ 


Ready ssh2: AES-256-CTR. 4,34 SRows,74 Cols VT100 CAP 


图 5-22 创建 配置 文件 mongodb_mongos.conf 
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从 图 5-22 中 可 以 看 出 ,配置 文件 mongodb_mongos.conf 已 经 创建 成 功 。 执 行 vi 命令， 
在 配置 文件 mongodb_mongos.conf 中 添加 路 由 服务 器 的 相关 参数 ,具体 如 下 : 


logpath-/opt/servers/mongodb demo/shardcluster/mongos/logs/mongos.log 
logappend -true 

port -27021 

bind ip-nosql101 

fork true 


# 指 定 配置 服务 器 (Config Server) 地 址 
configdb =configs/nosq1l01:27022, nosql02:27022, nosq1l03:27022 


maxConns=20000 


上 述 内 容 中 ,我 们 没有 设置 参数 dbpath, 这 是 因为 路 由 服务 器 不 需要 存储 数据 目录 , 因 


此 不 需要 设置 参数 dbpath。 
由 于 在 分 片 集群 中 规划 了 两 个 mongos, 因 此 ,需要 将 配置 文件 mongodb_mongos.conf 
通过 scp 命令 分 发 至 服务 器 nosql02 的 目录 /mongos/configFile 下 ,具体 命令 如 下 : 


$scp /opt/servers/mongodb demo/shardcluster/mongos/configFile/mongodb mongos.conf user_ 
mongo68nosq102: /opt/servers/mongodb demo/shardcluster/mongos/configFile/ 


执行 上 述 命令 后 ,我 们 需要 修改 服务 器 nosql02 的 配置 文件 mongodb mongos.conf 中 
参数 bind ip 的 值 , 即 将 值 修改 为 当前 服务 器 的 IP 地 址 或 主机 名 ( 即 nosql02) 。 


2. 启动 mongos 服务 


分 别 在 两 台 服 务 器 (nosql01 和 nosql02) 中 MongoDB 安装 目录 的 bin 目录 下 启动 
mongos, 具 体 命 令 如 下 : 


$ ./mongos - f /opt/servers/mongodb ^ demo/shardcluster/mongos/configFile/mongodb _ 


mongos.conf 


执行 上 述 命令 后 ,查看 控制 台 输 出 mongos 启动 的 信息 ,具体 如 图 5-23 和 图 5-24 所 示 。 
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user mongoénosqT01 bin]$ ./mongos -f /opt/servers/mongodb demo/shardcTuster /mongos/conf ig 
File/mongodb. mongos. coi 
about to fork child process, waiting until server is ready for connections. 
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forked process: 3066 
child process started successfully, parent exiting 
[user_mongoenosq101 bin]$ 


| 192168121154 x |4? 192.168.121.135 | @ 192.168.121.136 
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5-23 ”服务 器 nosql01 中 mongos 启动 信息 


从 图 5-23 和 图 5-24 中 可 以 看 出 ,两 台 服务 器 (nosql01 和 nosql02) 启 动 mongos 时 , 控 
制 台 均 输 出 “child process started successfully” 的 信息 ,说 明 我 们 成 功 启动 mongos, 从 而 确 


保 分 片 集群 中 至 少 包 含 两 个 mongos。 
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File/mongodb. mongos. cot 


about to fork child process, waiting until server is ready for connections. 
forked process: 3010 
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[user mongoénosql02 bin]$ 


4b 


Ready ssh2: AES-256-CTR. 6, 27 6Rows, 90 Cols VT100 CAP NUM 


5-24 ”服务 器 nosql02 中 mongos 启动 信息 


注意 : 启动 mongos 使 用 的 是 mongos 命令 ,而 不 是 mongod 命令 。 
54.6 启动 分 片 功 能 

分 片 集群 部 署 完成 后 ,还 需要 启动 分 片 功能 。 下 面 , 我 们 来 启动 分 片 集群 的 分 片 功能 ， 
具体 步 又 如 下 。 

(1) 在 服务 器 nosql01 中 登录 mongos 的 MongoDB 客户 端 (需要 通过 mongos 操作 分 
片 集群 ) ,具体 命令 如 下 : 


# 在 MongoDB 的 bin 目录 下 执行 
$./mongo --host nosql101 --port 27021 


执行 上 述 命令 后 ,查看 控制 台 输 出 的 信息 ,具体 如 图 5-25 所 示 。 
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图 5-25 登录 mongos 的 MongoDB 客户 端 


从 图 5-25 中 可 以 看 出 ,我 们 已 经 成 功 登录 到 mongoDB 的 客户 端 。 
D 切换 到 数据 库 gateway, 具 体 命令 如 下 : 


mongos»use gateway 
Switched to db gateway 


(3) 向 分 片 集群 中 添加 三 个 Shard 分 别 为 shardl .shard2 和 shard3 ,具体 命令 如 下 : 
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执行 上 述 命令 后 ,控制 台 会 返回 当前 添加 Shard 操作 是 否 成 功 的 信息 , 若 信息 中 出 现 字 
段 “<OK"” 的 值 为 1, 则 说 明 当 前 Shard 添加 成 功 。 

注意 : 三 个 Shard 添加 完成 后 ,可 以 在 数据 库 gateway 中 执行 sh.status() 命 令 查看 分 
片 集群 状态 。 

国 多 学 一 招 : 删除 MongoDB 分 片 集群 中 的 Shard 

若是 想 要 删除 MongoDB 分 片 集群 中 添加 的 Shard, 则 可 以 执行 如 下 命令 : 


$53  MongoDB 分 片 z657 


上 述 命令 中 ,shard3 代表 要 删除 的 Shard 名 称 。 若 是 开启 了 安全 认证 , 则 需要 使 用 root 
用 户 权限 操作 。 

注意 : 在 删除 分 片 前 ,需要 先 删除 分 片 集群 中 的 数据 , 即 分 片 的 数据 库 和 集合 ,否则 重 
新 添加 分 片 集群 时 ,该 分 片 将 无 法 使 用 。 一 般 我 们 不 建议 删除 分 片 。 


5.5 分 片 的 基本 操作 


通过 上 一 节操 作 ,我们 启动 了 分 片 集群 的 分 片 功能 。 若 此 时 向 分 片 集群 添加 数据 库 和 
集合 时 ,默认 情况 下 这 些 集 合 和 数据 库 是 没有 实现 分 片 功能 的 。 接 下 来 ,我 们 将 详细 讲解 如 
何 实现 对 数据 库 和 集合 进行 分 片 操作 ,具体 步骤 如 下 。 


1. 登录 MongoDB 客户 端 
在 服务 器 nosql01 中 登录 mongos 的 MongoDB 客户 端 ,具体 命令 如 下 : 


2. 设置 chunk 


为 了 便于 展示 分 片 操 作 , 将 分 片 chunk( 块 ) 设 置 为 1M., 使 得 插入 少量 数据 就 可 体现 出 
分 片 的 效果 ,具体 命令 如 下 : 
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3. 模拟 写 入 数据 


在 分 片 集群 中 ,创建 数据 库 school, 并 向 数据 库 中 添加 集合 user, 然 后 模拟 向 集合 中 写 
入 5 万 条 文档 ,具体 命令 如 下 : 


4. 对 数据 库 进 行 分 片 操作 
在 开启 集合 分 片 前 ,需要 先 开启 数据 库 的 分 片 功能 ,具体 命令 如 下 : 


执行 上 述 命令 后 ,若是 控制 台 返回 “ok: 1”, 则 说 明 我 们 成 功 开启 数据 库 分 片 功能 , 即 成 
功 对 数据 库 进行 分 片 操作 。 
注意 : 我 们 需要 在 数据 库 gateway 下 进行 数据 库 分 片 操作 。 


5. 对 集合 进行 分 片 操作 
对 集合 进行 分 片 操作 前 ,需要 为 集合 user 创建 索引 ,具体 命令 如 下 : 


$53 MongoDB 分 片 167 


执行 上 述 命令 后 ,我 们 成 功 为 集合 user 创建 索引 。 接 下 来 ,我 们 将 以 索引 "id" 作 为 分 
片 键 ,对 集合 user 进行 分 片 操作 ,具体 如 下 : 


从 上 述 返 回 结果 “ok: 1” 可 以 看 出 ,我 们 成 功 为 数据 库 school 下 的 集合 user 开启 分 片 功能 。 
6. 查看 分 片 信息 


在 数据 库 gateway 下 ,执行 sh.status() 命 令 , 查 看 数据 库 school 中 集合 user 的 分 片 信 
息 ,具体 如 下 : 
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$53 MongoDB 分 片 169- 


从 上 述 返 回 结果 可 以 看 出 ,school.user( 即 数据 库 school 下 的 集合 user) 的 分 片 键 
(shard key) 为 id; 参数 “chunks” 中 各 Shard 的 分 布 信息 为 “shardl 2,shard2 2,shard3 2”, 说 
明 shardl.shard2 和 shard3 中 分 别 存在 两 个 chunk。 


7. 开启 安全 认证 


MongoDB 默认 没有 开启 安全 认证 ,在 第 4 章 中 我 们 已 有 所 了 解 ,分 片 集群 与 副本 集 开 
启 安全 认证 的 方式 基本 一 致 ,同样 是 使 用 KeyFile 安全 认证 的 方式 ,具体 步骤 如 下 。 

(1) 创建 并 同步 KeyFile 文件 。 

关于 创建 并 同步 KeyFile 文件 ,读者 可 参考 第 4 章 4.4.5 节 的 内 容 进行 操作 ,这 里 不 再 
歼 述 。 若 已 完成 了 副本 集 部 署 , 也 创建 了 KeyFile 文件 , 则 可 以 不 用 再 次 创建 KeyFile X 
件 ,直接 使 用 即 可 。 

(2) 创建 全 局 管理 用 户 。 

通过 登录 mongos 的 MongoDB 客户 端 , 用 于 创建 全 局 管理 用 户 , 从 而 操作 分 片 集群 。 
这 里 以 服务 器 nosql01 为 例 演示 分 片 集群 操作 。 

(D 登录 mongos 的 MongoDB 客户 端 , 具 体 命令 如 下 : 


C) 切换 数据 库 至 admin, 添 加 全 局 用 户 itcastAdmin, 具 体 如 下 : 


从 上 述 返 回 结果 Successfully 可 以 看 出 ,我们 成 功 添加 全 局 用 户 itcastAdmin。 
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(3) 关闭 分 片 集群 。 

关闭 所 有 服务 器 中 分 片 集群 的 Shard, Config Server 和 mongos 进程 ,这 里 以 服务 器 
nosql01 为 例 , 具 体 步 又 如 下 。 

CD 在 关闭 分 片 集群 前 ,需要 关闭 平衡 器 ( 即 Balancer, H FEE Chunk 迁移 的 后 台 进 
程 , 若 各 Shard 之 间 的 Chunk 数量 差 值 超 过 了 系统 默认 阔 值 , 则 Balancer 开始 在 分 片 集群 
中 迁移 Chunk 以 确保 数据 的 均匀 分 布 ) ,停止 块 的 迁移 和 划分 ,具体 如 下 : 


# 在 MongoDB 的 bin 目录 下 登录 mongos 的 MongoDB 客户 端 
$./mongo --host nosq101 --port 27021 
mongos»use gateway 
switched to db gateway 
mongos» Sh. stopBalancer () 
t 
POET Sd 
"operationTime" : Timestamp(1587783605, 2), 
"$clusterTime" : { 
"clusterTime" : Timestamp(1587783605, 2), 
"signature" : { 
"hash" : BinData (0, "AAAAAAAAAAAAAAAAAAAAAAAAAAA- "), 
"keyId" : NumberLong(0) 


) 


从 上 述 返 回 结果 “ok:1” 可 以 看 出 ,我 们 成 功 关闭 分 片 集群 的 平衡 器 。 

© 关闭 mongos。 

在 服务 器 nosql01 中 ,执行 ps -ef | grep mongos 命令 ,查看 Mongos 进程 ,效果 如 图 5-26 
所 示 。 
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5-26 ”服务 器 nosql01 中 的 Mongos 进程 


从 图 5-26 中 可 以 看 出 ,进程 Mongos 的 进程 id 为 3066。 执 行 kill -2 3066 命令 ,关闭 
mongos 进程 ;再 执行 ps -ef | grep mongos 命令 ,查看 Mongos 进程 是 否 成 功 关 闭 , 效 果 如 
图 5-27 所 示 。 

从 图 5-27 中 可 以 看 出 ,服务 器 nosql01 中 的 Mongos 进程 已 经 成 功 关 闭 。 

注意 : 重复 上 述 步 骤 , 关 闭 服务 器 nosql02 中 的 Mongos 进程 ,这 里 不 再 丙 述 。 

© 关闭 Shard, 

在 服务 器 nosql01 中 ,执行 ps -ef | grep mongodb_shard 命令 ,查看 Shard 进程 ,效果 如 
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[user mongo&nosql01 bin]$ ps -ef | grep 
user mos ^ 3531. 2264 0 01:55 pts/O 
[user mongo&nosql01 bin]$ 


mongos 
00:00:00 grep --color-auto mongos 
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图 5-27 关闭 服务 器 nosql01 中 Mongos 进程 


图 5-28 所 示 。 
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图 5-28 ”查看 服务 器 nosql01 中 的 Shard 进程 


从 图 5-28 中 可 以 看 出 , 进程 Shard 的 进程 id 分 别 为 2774、2811 和 2848( 由 于 分 片 集群 
中 有 三 个 Shard, 并 且 每 个 Shard 都 是 副本 集 模 式 ,因此 三 台 服 务 器 均 会 包含 三 个 Shard 进 
FE). dT kill -2 2774 2811 2848 命令 ,关闭 Shard 进程 ;再 执行 ps -ef | grep mongodb_ 
shard 命令 ,查看 Shard 进程 是 否 成 功 关 闭 ,效果 如 图 5-29 所 示 。 
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[user.mongoénosql01 bin]$ ps -ef | grep mongodb shard 


User mo- 3607 2264 0 02:09 pts/0 00:00:00 grep --color-auto mongodb shard 
[user mongo&nosql01 bin]$ 
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5-29 关闭 服务 器 nosql01 中 Shard 进程 


从 图 5-29 中 可 以 看 出 ,服务 器 nosql01 中 的 Shard 进程 已 经 成 功 关闭 。 


注意 : 重复 上 述 步 又 ,关闭 服务 器 nosql02 和 nosql03 中 的 Shard 进程 ,这 里 不 再 翰 述 。 
@ 关闭 Config Server. 


在 服务 器 nosql01 中 ,执行 ps -ef | grep config 命令 ,查看 Config Server 进程 ,效果 如 
图 5-30 所 示 。 


从 图 5-30 中 可 以 看 出 ,进程 Config Server 的 进程 id 为 2509。 执 行 kill -2 2509 命令 


giziln 
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图 192.168.121.134 - SecureCRT Lej MES 
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A 5-30 ”查看 服务 器 nosql01 中 Config Server 进程 


关闭 Config Server 进程 ;再 执行 ps -ef | grep config 命令 ,查看 Config Server 进程 是 否 成 
功 关闭 ,效果 如 图 5-31 所 示 。 
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| 192.168.121134 x L @ 192.168.121.135 | @ 192.168.121.136 
user mong: 


Tn 
User -nonjotnosqloi bin]$ ps -ef | grep config. 
user mo- 3633 2264 0 02:18 pts/O :00 grep --color-auto config 
[user mongoénosql01 bin]$ 


Ready ssh2: AES-256-CTR 4, 27 SRows,78Cols VT100 CAP NUM 


图 5-31 关闭 服务 器 nosql01 中 Config Server 进程 


从 图 5-31 中 可 以 看 出 ,服务 器 nosql01 中 的 Config Server 进程 已 经 成 功 关闭 。 

注意 : 重复 上 述 步 又 ,关闭 服务 器 nosql02 和 nosql03 中 的 Config Server 进程 ,这 里 不 
HIE. 

至 此 ,我们 完成 对 分 片 集群 的 关闭 操作 。 需 要 注意 ,关闭 分 片 集群 中 ,需要 按照 
Mongos,Shard 和 Config Server 的 顺序 依次 关闭 ,由 于 Config Server 记录 着 整个 分 片 集群 
的 元 数据 ,而 mongos 和 Shard 都 需要 与 Config Server 交互 ,因此 Config Server 必须 是 最 
后 关闭 ,而 mongos 作为 客户 端 交 互 组 件 可 以 最 先 关闭 。 

(4) 修改 分 片 集群 中 各 服务 器 的 配置 文件 。 

分 别 在 三 台 服 务 器 (nosql01、nosql02 .nosql03) 中 Config Server、Shard、Mongos 的 配置 
文件 中 添加 keyFile 参数 和 auth 参数 ,用 于 指定 KeyFile 文件 和 开启 安全 认证 (这 里 以 服务 
器 nosql01 为 例 )( 注 意 : Mongos 的 配置 文件 中 不 需要 添加 auth 参数 ) 。 

进入 /opt/servers/mongodb_ demo/shardcluster/configServer/configFile 目录 ,在 Config 
Server 配置 文件 mongodb_config.conf 中 添加 参数 keyFile 和 auth( 加 粗 部 分 ) ,具体 如 下 :; 


# 数 据 文件 存放 位 置 

dbpath- /opt/servers/mongodb demo/shardcluster/configServer/data 

# 日 志文 件 

logpath=/opt/servers/mongodb demo/shardcluster/configServer/logs/config server.log 
# 端 口号 

port=27022 
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重复 上 述 步 又 ,在 服务 器 nosql02 和 nosql03 的 配置 文件 mongodb_config.conf 中 添加 
参数 keyFile 和 auth. 3X E RER. 
HEA / opt/servers/ mongodb. demo/shardcluster/shard/configFile 目录 ,分 别 在 Shard 
的 配置 文件 mongodb. shardl.conf,mongodb. shard2.conf 和 mongodb. shard3.conf 中 添加 
参数 keyFile 和 auth( 加 粗 部 分 ), 具 体 如 文件 5-1 文件 5-2 和 文件 5-3 所 示 。 
文件 5-1 mongodb shardl.conf 


文件 5-2 mongodb shard2.conf 
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bind ip-nosql01 
Sshardsvr-true 

# 指 定 分 片 shard2 的 副本 集 名 称 

replSet-shard2 

# 指 定 KeyFile 文件 ,这 里 我 们 使 用 部 署 副本 集 时 创建 的 KeyFile 文件 
keyFile=/opt/servers/mongodb_demo/replicaset/key/keyfile 
FARE 

auth=true 


文件 5-3 mongodb_shard3.conf 


dbpath-/opt/servers/mongodb demo/shardcluster/shard/shard3 data 
logpath- /opt/servers/mongodb demo/shardcluster/shard/logs/shard3.log 
port-27019 

logappend-true 

fork-true 

maxConns- 5000 

bind ip-nosq101 

Shardsvr-true 

# 指 定 分 片 shard3 的 副本 集 名 称 

replSet-shard3 

# 指 定 KeyFile 文件 ,这 里 我 们 使 用 部 署 副本 集 时 创建 的 KeyFile 文件 
keyFile-/opt/servers/mongodb demo/replicaset/key/keyfile 

# 开 启 安 全 认证 

auth=true 


重复 上 述 步 又 ,在 服务 器 nosql02 和 nosql03 的 配置 文件 mongodb_shardl. conf, 
mongodb_shard2.conf 和 mongodb_ shard3. conf 中 添加 参数 keyFile 和 auth, 这 里 不 作 

进入 /opt/servers/mongodb_demo/shardcluster/mongos/configFile 目录 ,在 Mongos 
的 配置 文件 mongodb_mongos.conf 中 添加 参数 keyFile( 加 粗 部 分 ) ,具体 如 下 : 


logpath=/opt/servers/mongodb demo/shardcluster/mongos/logs/mongos.log 
logappend =true 

port -27021 

bind ip-nosq101 

fork -true 

# 指 定 配置 服务 器 (Config Server) 地 址 

configdb =configs/nosq101:27022,nosq102:27022,nosq103:27022 
maxConns=20000 

# 指 定 KeyFile 文件 ,这 里 我 们 使 用 部 署 副本 集 时 创建 的 KeyFile 文件 
keyFile-/opt/servers/mongodb demo/replicaset/key/keyfile 


E 复 上 述 步 又 ,在 服务 器 nosql02 的 配置 文件 mongodb mongos.conf 中 添加 参数 
keyFile.3X ERER. 
至 此 ,我 们 完成 了 分 片 集群 中 各 服务 器 配置 文件 的 修改 操作 。 
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(5) 启动 分 片 集群 。 

分 别 在 三 台 服 务 器 (nosql01、nosql02 和 nosql03) 中 启动 分 片 集群 的 相关 进程 ,按照 
Config Server, Shard 和 mongos 的 顺序 启动 分 片 集群 。 首 先 , 在 服务 器 nosql01、nosql02 和 
nosql03 中 启动 Config Server; 然 后 ,在 服务 器 nosql01 .nosql02 和 nosql03 中 启动 Shard; ix 
后 ,在 nosql01 和 nosql02 中 启动 Mongos, 效 果 如 图 5-32、 图 5-33 和 图 5-34 所 示 。 


192.168.121.134 - SecureCRT ele) 


oe e oo e ea 


nf igFile/mo oed 

onfigFile/mongodb.. config. conf. 

about to fork child process, waiting until server is ready for connections. 
forked process: 3735 2l 


Tüser-mongotnosqlór DIIS e Jmongod.-F /opt/servers/mongodb-demc/shardc Tuster7shard/confTgFT 

e/mongodb. shard1. conf 

about to fork child process, waiting until server is ready for connections. 

forked process: 3822 

child process started successfully, parent exiting 

[user e price e. bin]$ ./mongod - opt /Server$/mongodb. demo/shardcluster /shard/conf igF i 
Je/mongod shard2. conf 
about to fork child process, waiting until server is ready for connections. 

forked process: 3925 

child process started successfully arent exiting 

fuser- _mongoenosq101 bin]$ ./mongod - opt /server$ /mongodb. demo/shardcluster /shard/configri 

| le/mongodb. shard3. conf 

about to fork child process, waiting until server is ready for connections. 

| forked process: 3988 


le/mong: b. moni be: conf 
about to fork child process, waiting until server is ready for connections. 
forked process: 4107 


Ready ssh2: AES-256-CTR. 26, 27 26Rows,91Cols  VT100 CAP NUM 


图 5-32 ”服务 器 nosql01 启动 分 片 集群 相关 进程 


192.168.121.135 - SecureCRT 己 | 回 | X 


ni 
i Enter host «Alt«R» 


Tr meum config cont 9 
about to fork child process, waiting until 
forked process: 3623 

process started successfull 


erg 

about to fork child process, waiting until server is ready for connections. 

forked process: 3719 

child process started successfully, parent exiting 

user mongoénosql02 bin]$ ./mongod -i yopt/SerVver /mongodb. 1 demo/shardcluster/shard/configFi 
e/mongodb_shard2. conf 


about to fork child process, waiting until server is ready for connections. 

forked process: 3831 

child process started successfully, parent exiting 

[user nae pos go bl bin]$ ./mongod - opt /serverS/mongodb. demo/shardcluster /shard/configFi 
shar 


Te/mongodi 3. conf 
about to fork child process, waiting until server is ready for connections. 

forked process: 3951 

child process started successfull arent exiti 

user mongoênasat02 DTP -/nongos = BUS ver S ongod deno/shardcTuster7mongos/confTgF 
1le/mongodb. mongos. conf 

about to fork child process, waiting until server is ready for connections. 

forked process: 4013 

child process started successfully, parent exiting 

[user mongo&nosq102 bin]$ 


Ready ssh2: AES-256-CTR. 26, 27 26 Rows, 91 Cols VT100 CAP NUM 


5-33 ”服务 器 nosql02 启动 分 片 集群 相关 进程 
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192.168.121.136 - SecureCRT Eel | 


We Mn 
3) d 3€]; Enter host <Alt+R> 


user. mongoénosq 103 
onfigFile/mongodb. conf ig. conf 
about to fork child process, waiting until server is ready for connections. 
forked process: 3384 
rocess iiie successfull exiti 
fe ongotnosqTo3 è 
Te/mongodb_shar: 
about to fork child process, waiting until server is ready for connections. 
forked process: 3472 
child process started successfully, parent exiting 
user mongoénosql03 bin]$ ./mongod -f /opt/servers/mongodb_demo/shardcluster/shard/configFi 


e/mongodb_shar d2. conf 

about to fork child process, waiting until server is ready for connections. 

forked process: 3524 

child process started successfully, parent exiting 

[user nn bin]$ ./mongod - opt /ServerS/mongodb « demo/shardcluster /shard/conf igr i 
shar 


Te/mongodi 3. conf 
about to fork child process, waiting until server is ready for connections. 
forked process: 3621 
child process started successfull arent exiti 
Tn 


Ready ssh2: AES-256-CTR. 21 27 21 Rows, 91 Cols VT100 CAP NUM 


图 5-34 服务 器 nosql03 启动 分 片 集群 相关 进程 


从 图 5-32、 图 5-33 和 图 5-34 中 可 以 看 出 ,我 们 成 功 地 在 三 台 服 务 器 中 以 安全 认证 模式 
启动 了 分 片 集群 。 由 于 关闭 分 片 集群 前 我 们 关闭 了 平衡 器 ,因此 重新 启动 分 片 集群 时 需要 
在 数据 库 gateway 下 执行 sh.startBalancer() 命 令 开启 平衡 器 (注意 : 开启 安全 认证 后 需要 
使 用 拥有 root 权限 的 用 户 进行 认证 后 才 可 以 进行 开启 平衡 器 的 操作 ,root 权限 用 户 的 认证 
请 参考 第 4 章 4.4.5 节 的 “多 学 一 招 ”)。 


8. 验证 安全 认证 


以 安全 认证 模式 启动 分 片 集群 后 ,我 们 通过 不 指定 用 户 的 方式 登录 mongos 的 
MongoDB 客户 端 ,验证 是 否 可 以 正常 读 取 分 片 集群 中 的 文档 ,这 里 以 服务 器 nosql01 为 例 ， 
具体 命令 如 下 : 


# 在 服务 器 nosq101 中 MongoDB 的 bin 目录 下 执行 
$./mongo --host nosq101 --port 27021 


执行 上 述 命令 后 ,再 依次 执行 user school 和 db.user. find O.limit 100 4 ,查看 集合 
user 中 前 10 条 文档 ,具体 如 下 : 


mongos>use school 

switched to db school 

mongos»db.user.find().limit(10) 

Error: error: ( 
"ok" 2107 
"errmsg" : "command find requires authentication", 
"code" : 13, 
"codeName" : "Unauthorized", 
"operationTime" : Timestamp(1587789362, 1), 
"$clusterTime" : { 


用 户 


以 说 


5.6 


"clusterTime" : Timestamp(1587789362, 1), 


"signature" : [ 
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"hash" : BinData(0, "yC£TSgwCSUTOO9pQecK6cTh9fyg- ") , 
"keyId" : NumberLong ("6819335986376343582") 


) 


从 上 述 返回 结果 command find requires authentication 可 以 看 出 ,查看 文档 操作 需要 


认证 后 才能 查看 。 


下 面 ,我 们 以 全 局 用 户 进行 身份 验证 后 ,再 进行 查看 文档 操作 


mongos>use admin 

switched to db admin 

mongos»? db.auth("itcastAdmin", "123456") 

1 

mongos»use school 

switched to db school»db.user.find().limit(10) 
mongos»db.user.find().limit(10) 

( " id" : ObjectId("5ea39c6880746d2c7247£55f"), 
bjectId("5ea39c6880746d2c7247f574"), 
: ObjectId("5ea39c6880746d2c7247£575"), 
: ObjectId("5ea39c6880746d2c7247£56a"), 
: ObjectId("5ea39c6880746d2c7247£572"), 
: ObjectId("5ea39c6880746d2c7247£561"), 
: ObjectId("5ea39c6880746d2c7247£573") , 
AS bjectId("5ea39c6880746d2c7247f567"), 
eid bjectId("5ea39c6880746d2c7247f56e"), 
( " id" : ObjectId("5ea39c6880746d2c7247£587") , 


Sidris 
Erde 
"id" 
"id" 
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1, "name" : 
22, "name" : 
23, "name" : 
12, "name" : 
20, "name" : 
3, "name" : 
21, "name" : 
9, "name" : 
16, "name" : 
41, "name" : 


,具体 如 下 : 


"jackl" ) 
"jack22" } 
"jack23" } 
"jack12" } 
"jack20" } 

"jack3" } 
"jack21" ) 

"jack9" } 
"jackl6" } 
"jack41" } 


从 上 述 返 回 结果 可 以 看 出 ,客户 端 成 功 展 示 了 集合 user 中 的 前 10 条 文档 内 容 , 因 此 可 


明 我 们 成 功 开启 了 分 片 集群 的 安全 认证 。 


本 章 小 结 


本 章 讲解 了 MongoDB 分 片 的 相关 知识 ,首先 介绍 分 片 , 让 读者 可 以 认识 MongoDB 分 


HH 


sn 


次 介绍 分 片 策略 ,使 得 读者 理解 分 片 策略 ;接着 介绍 分 片 集群 架构 ,希望 读者 熟悉 分 片 
的 架构 ;再 次 介绍 部 署 分 片 集群 ,希望 读者 务必 要 亲手 实践 并 牢记 分 片 集群 的 部 署 ;最 


后 介绍 分 片 的 基本 操作 ,读者 可 以 掌握 对 数据 库 和 集合 的 分 片 操作 ,并 实现 分 片 安全 认证 


功能 


23:7 


课 后 习题 


一 、 填 空 题 


Ñ 是 MongoDB 支持 的 另 一 种 集群 形式 。 
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2. 分 片 技术 是 开发 人 员 用 来 提高 和 数据 读 写 吞吐 量 常 用 的 技术 之 一 。 
3. 分 片 主 要 是 将 数据 进行 后 ,将 它们 分 别 存放 于 不 同 机 器 上 的 过 程 。 
4. MongoDB 之 所 以 能 够 实现 自动 分 片 , 这 是 因为 其 内 置 了 

5. MongoDB 的 分 片 策略 主要 包括 范围 分 片 和 两 种 。 


二 、 判 断 题 


1. 分 片 与 副本 集 主要 区 别 在 于 分 片 是 每 个 结 点 存储 数据 的 不 同 片段 ,而 副本 集 是 每 个 
结 点 存储 数据 的 相同 副本 。 

2. 块 (chunk) 的 默认 大 小 为 128MB。 

3. 分 片 键 只 能 是 集合 文档 中 的 一 个 字段 。 

4. 分 片 服务 器 是 实际 存储 数据 的 组 件 。 

5. 生产 环境 中 ,路 由 服务 器 存储 了 分 片 集群 的 元 数据 。 
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三 、 选 择 题 

1. 下 列 服务 器 中 ,( ) 不 是 服务 器 分 片 集群 的 组 成 部 分 。 
A. Shard B. Mongos 
C. Config Server D. Mongod 


2. 下 列 选项 中 ,关于 块 的 说 法 正确 的 是 ( 
A. 块 的 默认 大 小 为 64MB 
B. 大 块 触 发 的 迁移 较 多 
C. 块 的 大 小 不 会 影响 要 迁移 块 的 最 大 文档 数 
D. 大 块 可 以 均匀 地 分 布 数据 
3. 下 列 说 法 中 ,关于 分 片 键 说 法 错误 的 是 ( Ja 
A. 分 片 键 一 旦 指定 ,后 续 则 无 法 改变 
B. 分 片 键 的 长 度 大 小 ,可 超过 512 个 字 节 
C. 用 于 作 分 片 键 的 字段 必须 创建 索引 
D. 不 允许 在 已 分 片 的 集合 文档 上 插入 没有 分 片 键 的 文档 


四 、 简 答题 

简 述 分 片 集群 的 架构 。 
五 、 操 作 题 

动手 实践 部 署 分 片 集群 。 
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学 习 目 标 


* 了 解 GridFS 概念 及 应 用 场景 
。 熟悉 GridFS 存储 结构 

。 掌握 使 用 Shell 操作 GridFS 

。 掌握 使 用 Java 操作 GridFS 

。 掌握 使 用 Python 操作 GridFS 


在 前 几 章 的 学 习 中 ,我 们 学 习 了 MongoDB 存储 数据 的 形式 并 通过 实际 操作 完成 数据 
的 存储 。 默 认 情 况 下 , MongoDB 受 BSON 文件 大 小 的 限制 ,存储 的 文件 大 小 不 可 超过 
16MB, 但 是 在 实际 系统 开发 中 ,上 传 的 图 片 或 者 文件 会 很 大 。 为 了 满足 这 种 需求 ， 
MongoDB 提供 了 GridFS 框架 ,而 GridFS 框架 可 以 更 好 地 存储 大 于 16M 的 文件 。 因 此 ,本 
章 将 针对 GridFS 框架 相关 的 知识 及 使 用 进行 详细 讲解 。 


6.1 GridFS 概述 


GridFS 是 MongoDB 的 一 个 子 模块 ,使 用 GridFS 可 以 基于 MongoDB 来 持久 化 文件 ， 
并 且 支 持 分 布 式 应 用 ( 即 文件 分 布 存储 和 读 取 ) 。 

GridFS 也 是 文件 存储 的 一 种 方式 , 它 不 会 将 文件 存储 在 单个 文档 中 ,而 是 将 文件 分 为 
多 个 块 (chunk) ,并 将 每 个 块 存 储 为 单独 的 文档 。 默 认 情况 下 ,GridFS 使 用 的 块 大 小 为 255 
KB。 也 就 是 说 ,GridFS 将 文件 分 成 多 个 大 小 为 255KB 的 块 ( 最 后 一 个 块 除外 ,最 后 一 个 块 
的 大 小 由 实际 剩余 情况 而 定 ) 。 

当 查 询 GridFS 文件 时 ,GridFS 驱动 程序 将 根据 查询 需求 重新 组 装 块 , 形 成 完整 文件 。 
在 查询 时 还 可 以 指定 查询 范围 ,访问 文件 中 的 任意 部 分 信息 ,例如 跳 转 到 视频 或 音频 的 某 个 
时 间 点 查看 。 

在 某 些 情况 下 , MongoDB 数据 库 中 存储 大 型 文件 可 能 比 系统 级 文件 系统 (如 Windows 
系统 、Linux 系统 ) 存 储 效 率 更 高 。 下 面 举 例 列 出 一 些 GridFS 常见 的 应 用 场景 : 

* 文件 系统 限制 了 一 个 目录 可 包含 的 文件 数 , 可 以 使 用 GridFS 存储 任意 数量 的 文件 。 

。 希望 文件 和 元 数据 自动 同步 ,并 使 用 MongoDB 副本 集 将 文件 存储 到 多 个 系统 中 。 

* 可 以 使 用 GridFS 获取 文件 的 部 分 内 容 加 载 到 内 存 中 来 查看 想 要 的 信息 ,而 不 需要 

加 载 整个 大 文件 到 内 存 中 去 查找 。 
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这 里 需要 注意 的 是 ,如 果 文 件 大 小 小 于 16 MB 的 限制 ,那么 使 用 单个 文档 存储 文件 即 
可 ,最 好 不 要 使 用 GridFS。 可 以 在 文档 中 使 用 BinData 数据 类 型 存储 二 进 制 数据 。 


6.2 GridFS 存储 结构 


GridFS 将 上 传 的 文件 存储 在 两 个 集合 中 。 下 面 , 通 过 一 张 图 介绍 一 下 GridFS 存储 结 
构 , 具 体 如 图 6-1 所 示 。 


GridFS 
文件 GridFS API nem - 文件 
pa 元 
xa Fo) 
fs.files fs.chunks 


6-1. GridFS 存储 结构 


从 图 6-1 中 可 以 看 出 ,文件 通过 GridFS 驱动 上 传 到 GridFS 中 进行 存储 ,GridFS 将 文 
件 分 别 存储 到 集合 fs.chunks 和 fs.files 中 。 下 面 ,针对 GridFS 中 存储 文件 的 两 个 集合 进行 
详细 介绍 ,具体 如 下 : 

。 fs.chunks: GridFS 将 文件 切 分 为 多 个 大 小 为 255 KB 的 二 进 制 数据 块 ( 即 文件 原始 

数据 ) ,将 这 些 数据 块 存储 在 fs.chunks 集合 中 。 

* fs.files: 存储 文件 的 元 数据 (meta data) ,元 数据 是 关于 数据 的 组 织 、 数 据 域 及 其 关 
系 的 信息 。 简 言 之 ,元 数据 就 是 描述 文件 信息 的 数据 ,可 以 说 是 一 种 电子 目录 ,用 来 
记录 文件 名 .文件 大 小 ,文件 块 存储 位 置 等 数据 。 

GridFS 规范 定义 了 一 些 fs.files 中 文档 必需 的 键 : 

* dd; 文件 唯一 的 id, 上 默认 使 用 ObjectId 对 象 ,用 户 也 可 以 自 定义 其 类 型 。 与 fs. 
chunks 集合 中 数据 块 的 files id 键 相对 应 。 

。 Length: 文件 大 小 ,以 字 节 为 单位 。 

e chunkSize: 每 块 的 大 小 ,以 字 节 为 单位 。 默 认 是 261120b(255kb), 必要 时 可 以 
调整 。 

* uploadDate: 文件 上 传 时 间 。 

。 filename: 文件 名 称 。 

。 metadata: 文件 的 其 他 信息 ,默认 内 容 为 空 ,用 户 可 以 自己 定义 。 

GridFS 规范 定义 了 一 些 fs.chunks 中 文档 必需 的 键 : 

。 id: 和 其 他 MongoDB 文档 一 样 , 块 也 有 自己 唯一 的 标记 ,默认 使 用 ObjectId 对 象 ， 
用 户 也 可 以 自 定义 其 类 型 。 

e files id: 文件 id, 对 应 fs.files 集合 中 文件 元 数据 中 的 _id SE. 

*on: 表示 块 编号 ,也 就 是 这 个 块 在 原文 件 中 的 顺序 编号 。 

。 data: 数据 块 中 的 二 进 制 数据 。 

当 客 户 端 在 GridFS 中 查询 文件 时 ,MongoDB 将 首先 从 集合 fs.files 中 获取 该 文件 的 元 
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数据 信息 ,然后 根据 获取 的 元 数据 信息 在 集合 fs.chunks 查找 符合 要 求 的 块 ( 即 files_id 与 
元 数据 中 _id 相同 的 块 ) ,最 后 将 这 些 块 重新 组 装 后 返回 给 客户 端 。 


6.3 GridFS 基本 操作 


操作 MongoDB GridFS 前 需要 先 部 署 MongoDB,.MongoDB 的 模式 可 以 是 单 结 点 、 副 
本 集 或 者 分 片 集群 ,MongoDB 这 三 种 模式 的 部 署 方式 可 参照 本 书 第 3 ELS 4 章 和 第 5 章 
进行 操作 ,这 里 就 不 再 做 演示 。 
6.3.1 使 用 Shell 操作 MongoDB GridFS 

MongoDB 提供 了 与 GridFS 交互 的 命令 行 工 具 mongofiles ,通过 Shell 命令 可 以 很 方 


便 地 操作 GridFS, 例 如 上 传 文件 .下 载 文件 和 查询 文件 等 相关 操作 。 下 面 , 介 绍 mongofiles 
工具 的 语法 ,具体 代码 如 下 : 


mongofiles <options><commands><filename> 


上 述 语法 中 , mongofiles 表示 使 用 mongofiles 命令 行 工具 ;options 用 于 指定 连接 
MongoDB 数据 库 的 选项 信息 ;commands 用 于 指定 操作 GridFS 的 命令 ;filename 用 于 指定 
本 地 文件 系统 上 的 文件 名 或 GridFS 中 存储 的 文件 对 象 。 

下 面 , 通 过 两 张 表 来 分 别 介绍 mongofiles 工具 常用 的 options 选项 和 commands 命令 
及 其 相关 说 明 ,具体 如 表 6-1 MÆ 6-2 所 示 。 


mongofiles 工具 常用 的 options 选项 及 相关 说 明 
options 相关 说 明 


表 6-1 


--help 返回 有 关 mongofiles 中 所 有 options 的 用 法 信息 


指定 MongoDB 数据 库 的 主机 名 (或 IP) 和 端口 号 ,默认 情况 


bho ShostAme > porz 下 ,mongofiles 尝试 连接 localhost: 27017 的 主机 名 和 端口 号 


指定 MongoDB 数据 库 的 端口 号 (如 果 --host 中 没有 指定 端 


--port= < port> 口号 ) 


serpame 一 全 eerpame> f 指定 用 户 名 ,主要 用 于 MongoDB 数据 库 开 启 了 权限 认证 


-u= — username-- 


—password = < password — H - 
dex z 指定 密码 (用 于 MongoDB 数据 库 开启 了 权限 认证 ) 


指定 GridFS 存储 数据 库 名 称 ,默认 使 用 MongoDB 中 test 数 


—db-— — database" -d= — database 


据 库 。 如 数据 库 名 称 不 存在 则 创建 


local < filename > IÈ 
-l= < filename> 


指定 用 于 获取 和 存储 操作 的 文件 名 称 


—replace, -r 


替换 GridFS 中 已 存在 的 对 象 (文件 名 相同 ) ,与 put 用 法 类 
似 ,区 别 是 put 不 会 覆盖 已 存在 的 对 象 


—authenticationDatabase— — dbname-- 


指定 GridFS 存储 的 身份 认证 数据 库 名 称 ( 用 于 开启 了 权限 
认证 的 MongoDB 数据 库 ) 
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表 6-2. mongofiles 工具 常用 的 commands 命令 及 相关 说 明 
commands 相关 说 明 


列 出 GridFS 存储 中 的 所 有 文件 。prefix 为 指定 的 字符 串 , 这 样 返回 的 文件 列表 


ee 限制 为 以 该 字符 串 开头 的 所 有 文件 ,为 可 选 参数 


search <string> 列 出 GridFS 存储 中 名 称 与 指定 字符 串 string 匹配 的 文件 


将 指定 的 文件 从 本 地 文件 系统 复制 到 GridFS 存储 中 。 可 以 和 --local 选项 一 起 
put — filename 使 用 以 获取 指定 路 径 下 的 文件 ,如 local 指定 的 文件 名 为 a.txt, 在 put 中 可 重 命 
名 为 b.txt 


将 指定 的 文件 从 GridFS 存储 复制 到 本 地 文件 系统 。 如 果 将 获取 的 文件 重 命名 


get filename | 存储 在 本 地 或 者 指定 文件 的 存储 路 径 , 可 以 和 -local 选项 一 起 使 用 


delete — filename 从 GridFS 存储 中 删除 指定 的 文件 


get id "— id" 将 指定 _id 的 文件 从 GridFS 存储 复制 到 本 地 文件 系统 


delete id "<_id>" | 从 GridFS 存储 中 删除 指定 _id 的 文件 


表 6-1 和 表 6-2 介绍 了 mongofiles 工具 常用 的 options 选项 和 commands 命令 。 接 下 
来 ,我 们 将 通过 具体 示例 讲解 如 何 使 用 mongofiles 工具 来 操作 GridFS( 注 意 : 本 节 Sehll 相 
关 操 作 使 用 user. mongo 用 户 操作 ) 。 

本 章 针对 GridFS 的 操作 以 开启 权限 认证 的 MongoDB 副本 集 为 环境 基础 (第 4 章 部 署 
的 MongoDB 副本 集 环 境 , 如 操作 了 配置 延迟 结 点 操作 , 需 将 该 结 点 恢复 为 正常 的 副本 结 点 
(延迟 时 间 设 置 为 0, 是 否 为 隐藏 设置 为 false, 优 先 级 设置 为 1)), 且 副本 集 的 主 结 点 为 服务 
器 nosql01。 如 果 读 者 使 用 MongoDB 分 片 集群 为 环境 基础 操作 GridFS, 则 需要 设置 fs. 
chunks 集合 开启 分 片 功能 (通常 情况 下 fs.files 集合 较 小 ,不 需要 进行 分 片 处 理 ) 。 

在 执行 mongofiles 命令 行 工具 前 ,确保 使 用 user_mongo 用 户 启动 MongoDB 副本 集 ， 
如 系统 中 没有 user_mongo 用 户 可 参照 第 3 章 内 容 进 行 创建 。 


1. 上 传 本 地 系统 文件 到 GridFS 


通过 SecureCRT 远程 连接 工具 连接 服务 器 nosql01 ,创建 /opt/servers/mongo_demoy/ 
gridfs/datafile/ 目 录 , 用 于 存放 要 上 传 到 GridFS 中 的 文件 ,具体 命令 如 下 (注意 : 确保 
mongodb_demo/ 目 录 为 user_mongo 用 户 权限 ) : 


$mkdir -p /opt/servers/mongodb demo/gridfs/datafile 


执行 命令 cd /opt/servers/mongodb  demo/gridfs/datafile 进入 该 目录 后 通过 执行 rz 
命令 (可 以 通过 sudo yum install lrzsz -y 指令 安装 lrzsz 工具 实现 的 rz 上 传 和 sz 下 载 命 
令 ) ,将 文件 从 Windows 系统 上 传 到 服务 器 nosql01 中 的 /opt/servers/mongodb_demo/ 
gridfs/datafile 目录 下 ,如 图 6-2 所 示 。 

待 文件 上 传 完 成 后 ,可 在 /opt/servers/mongodb_demo/gridfs/datafile 目录 下 执行 11 
命令 验证 文件 是 否 上 传 成 功 ,如 图 6-3 所 示 。 

通过 mongofiles 命令 行 工具 将 文件 data-final.csv 从 Linux 本 地 文件 系统 上 传 到 
MongoDB GridFS 存储 系统 中 ,具体 命令 如 下 ( 需 在 MongoDB 的 bin 目录 下 执行 . 即 /opt/ 
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192.168.121.134 - SecureCRT 


图 Select Files to Send using Zmodem x 
ing 


加 自已 国 - 


| Data 


< 


Q@ 选 择 要 上 传 的 文件 ， 通 过 鼠标 双击 
rz rn to gU Is 将 文件 添加 到 “Files to send" 


Starting zmodem transfer. 


192.168.121.134 - SecureCRT 
Eo a a ea a uS 


Sq 
rz waiting to receive. 
Starting zmodem transfer. Press Ctrl+C to cancel. 


[user mongoenosq101 datafile]$|! 
total 406320 i p] 


-rw-r--r-- 1 user mongo user mongo 416273844 reb 17 16:00 fd: 
[user mongoénosqlO1 datafile]$ 


图 6-3 ”验证 文件 是 否 上 传 成 功 
servers/mongodb_demo/replicaset/mongodb/bin) 。 


$./mongofiles - -host=nosql01: 27017 -u itcastAdmin -p 123456 - -authenticationDatabase- 
admin -d 


testfiles -1 /opt/servers/mongodb demo/gridfs/datafile/data-final.csv put datafile.csv 


上 述 命令 中 ,通过 指定 用 户 名 、 密 码 及 认证 数据 库 登 录 副 本 集 主 结 点 服务 器 nosql01， 
将 /opt/servers/mongodb_ demo/gridfs/datafile/ 目 录 下 的 data-final. csv 文件 上 传 到 
MongoDB 副本 集中 GridFS 下 的 testfiles 数据 库 中 ,并 指定 上 传 到 GridFS 中 文件 的 名 称 为 
datafile.csv。 

待 文件 上 传 完成 后 ,查看 控制 台 返 回 的 信息 ,车 出 现 “added gridFile: datafile. csv” fri 
息 , 则 说 明 我 们 成 功 将 文件 上 传 至 GridFS 中 ,具体 如 图 6-4 所 示 。 
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192.168.121.134 - SecureCRT = 0U x 
File Edit View Options Transfer Script Tools Window Help 


FJ 
也 
8 
$ |[Tuser-mongo&nosqTO1 mongo ga 17 -u itcastAdmin -p 1 ^ 
s --authenticationDatabase-admin d tescfiles m py servers RES ay demo/gr idt s /dat 
E ||afile/data-final.csv put datafile. csv 

È ||| 2020-04-24T17:46:48. 343«0800 connected to: mongodb://nosq101:27017/ 

B 2020-04-24T17:46:52.136«0800 added gridFile: datafile.csv 


[user mongoénosql01 bin]$ 


Ready ssh2: AES-256-CTR 7, 27 7 Rows, 84 Cols VT100 CAP NUM 


图 6-4 成 功 上 传 文件 到 GridFS 


2. 查看 GridFS 集合 


GridFS 默认 将 上 传 的 文件 存储 在 两 个 集合 中 。 接 下 来 ,我 们 将 演示 如 何在 MongoDB 


副本 集中 查看 这 两 个 集合 。 


在 MongoDB 副本 集 主 结 点 (服务 器 nosql01) 登 录 MongoDB 客户 端 ,具体 命令 如 下 : 


# 进 入 服务 器 nosq101 中 MongoDB 的 bin 目录 下 

$cd /opt/servers/mongodb demo/replicaset/mongodb/bin 
# 登 录 MongoDB 客户 端 

$./mongo --host nosq101 --port 27017 


因为 MongoDB 副本 集 开 启 了 安全 认证 ,因此 需要 进行 身份 验证 ,这 里 使 用 已 创建 的 全 


局 管理 用 户 itcastAdmin 进行 身份 验证 ,具体 命令 如 下 : 


itcast:PRIMARY»use admin 
itcast:PRIMARY»db.auth("itcastAdmin","123456") 


切换 到 上 传 文件 时 指定 的 GridFS 数据 库 testfiles, 查 看 当前 数据 库 下 的 所 有 集合 


体 命令 如 下 : 


itcast:PRIMARY»use testfiles 

# 查 看 所 有 集合 

itcast:PRIMARY» show collections 
fs.chunks 

fs.files 


执行 完 查看 所 有 集合 的 命令 后 ,从 客户 端 返回 的 信息 中 可 以 看 出 数据 库 testfiles 下 包 
含 两 个 集合 ,它们 分 别 为 fs.chunks 和 fs.files。 
下 面 演示 如 何 查看 集合 fs.files 中 文件 的 元 数据 信息 ,具体 命令 如 下 : 


itcast:PRIMARY»use testfiles 
# 查 看 GridFs 中 文件 的 元 数据 信息 
itcast:PRIMARY»db.getCollection('fs.files').find().pretty() 
ü 

" id" : ObjectId("5ea2b588b0cf4bbe34e2c422"), 
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"length" : NumberLong (94027354), 
"chunkSize" : 261120, 
"uploadDate" : ISODate("2020- 04-24T09:46:52.0892"), 
"filename" : "datafile.csv", 
"metadata" : [ 
s 

T 


执行 查看 GridFS 中 文件 的 元 数据 信息 命令 后 ,从 客户 端 返回 的 信息 中 可 以 看 出 ， 
GridFS 中 包含 一 个 文件 的 元 数据 信息 , 即 已 上 传 的 文件 datafile.csv 的 元 数据 信息 ,元 信息 
中 各 字段 已 经 在 6.2 节 中 介绍 ,因此 这 里 不 再 做 缆 述 。 

下 面 演示 如 何 查看 文件 datafile.csv 被 分 割 后 存储 在 集合 fs.chunks 中 的 总 块 数 ,具体 
命令 如 下 : 


itcast:PRIMARY»use testfiles 
itcast:PRIMARY»db.getCollection('fs.chunks').find((files id: {$in: [ObjectId 
("5e69092379066e24064be650") ] }}) . 

count () 

361 


上 述 命令 中 ,统计 在 集合 fs.chunks 中 datafile.csv 的 总 块 数 ,通过 在 find() 方 法 中 指定 files 
_id 为 ObjectId("5e69092379066e24064be650"( 在 6.2 节 中 有 所 说 明 , 文 件 块 中 的 files id 与 文 
件 元 数据 信息 中 的 _id 相对 应 ) ,查询 出 集合 fs.chunks 中 文件 datafile.csv 的 总 块 数 为 361 。 

下 面 演示 如 何 查看 集合 fs. chunks 中 文件 datafile. csv 的 数据 块 内 容 , 这 里 以 文件 datafile. 
csv 的 其 中 一 个 数据 块 为 例 , 因 为 每 个 数据 块 都 包含 文件 的 部 分 二 进 制 数据 , 且 内 容 非常 多 ,如 
果 通 过 MongoDB 客户 端 查看 的 话 非常 不 方便 ,所 以 我 们 这 里 使 用 3.10 节 讲 述 的 Robo 3T 工 
具 进 行 查看 ,Robo 3T 的 使 用 方法 可 参照 3.10 节 和 3.11 节 , 这 里 就 不 再 做 演示 。Robo 3T TH 
连接 成 功 后 的 界面 (这 里 需要 连接 副本 集 的 主 结 点 , 且 需 要 身份 验证 ) 如 图 6-5 所 示 。 


& Robo 3T- 1.3 E a 


File View Options Window Help 


e| tiem x | 


Need a more powerful GUI? Try Robo 3T's sit 


ze 


Enjoy new features like: 


一 Schedule MongoDB tasks 
— Write SQL to query MongoDB 


— Import multiple SQL tables to a single MongoDB 
collection 


— Enjoy rich query autocompletion 
— Build queries via drag-and-drop 


— Import and export in various formats (CSV, JSON, 
Itl E 


图 6-5 Robo3T 连接 副本 集 
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双击 图 6-5 中 数据 库 testfiles 的 集合 fs.chunks, 查 看 该 集合 中 的 文档 (数据 块 ) ,选中 第 


一 个 文档 (文件 被 切 分 后 的 第 一 个 块 ) 后 idi" view Document: 
如 图 6-6 和 图 6-7 所 示 。 


”查看 该 文档 的 讨 


细 内 容 ， 


& Robo3T- 1.3 
Fle View Options Window Help 


CM ILAE 


|v 国 New Connection (6) 


A Welcome X | db. cetcollection( fs chun- x 


System 
» B ono dier Connection B 192.168.121.134:27017 E testfiles 
> B school (S oeccosdecetont: za-eunkat eiat 
B test | fs. chunks QU 0.94 sec. 4[ v 50 e 
v B testfles A 
Y | | Collections (2) Key Value 
E (1) Objectid('5e69092579066e24064be651") — (4 fields" 
> Bl chunks OO a = Expand Recursively — AlteRight 
> [E fsfles ED Q)Objedid(5e69092579066e24064be652) (4fields — UL m 
RUD. E (3) Objectld('5e69092579066e24064be653") — (4 fields. eccle ska E 
» 国 users EÐ (4) Objectid(5e69092579066e24064be654*) {4 fields Edit Document.. 
> E (S) Objectid("5e69092579066e24064be655") (4 fields IEN 
E (6) Objectid(5e69092579066624064be656") (4 fields. Aa 
© (7) Objectid("5e69092579066e24064be657") {4 fields 
&X (8) Objectld('5e6909257906624064be658") (4 fields COPY ISON 
E (9) Objectid("Se69092579066e24064be659") (4 fields Delete Document.. 
E (10) Objectid('5e69092579066e24064be65a*) (4 fields J 
EÐ (11) Objectld(5e69092579066e24064be65b") (4 fields ) Y 
Loes 
图 6-6 查看 第 一 个 文档 
& Edit pecu o 


Œ 192.168. 120120207. E testfiles 


£s chanka 


图 6-7 第 一 个 文档 的 详细 信息 
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3. 查看 GridFS 中 的 文件 
查看 GridFS 中 数据 库 为 testfiles 下 的 所 有 文件 ,在 MongoDB 的 bin 目录 下 执行 如 下 命令 : 


$./mongofiles - - host = 192. 168. 121. 134: 27017 - u itcastAdmin - p 123456 - d testfiles 
-authenticationDatabase 

=admin list 

connected to: mongodb://192.168.121.134:27017/ 

datafile.csv 94027354 


上 述 命令 中 ,list 表示 查看 GridFS 中 的 所 有 文件 ,执行 完 上 述 命令 后 ,会 返回 有 关 文 件 
的 基本 信息 , 即 文件 名 datafile.csv 和 文件 大 小 94027354, 

条 件 查询 GridFS 中 数据 库 为 testfiles 下 的 指定 文件 ,在 MongoDB 的 bin 目录 下 执行 
如 下 命令 : 


$./mongofiles - - host = 192. 168. 121. 134: 27017 - u itcastAdmin - p 123456 - d testfiles 
-authenticationDatabase 

=admin search "data" 

connected to: mongodb://192.168.121.134:27017/ 

datafile.csv 94027354 


上 述 命令 中 ,“search "data"” 表 示 检 索 数据 库 中 文件 名 包含 data 的 文件 ,执行 完 上 述 命 
令 后 ,会 返回 符合 检索 条 件 文件 的 基本 信息 , 即 文件 名 datafile.csv 和 文件 大 小 94027354。 


4. 下 载 GridFS 中 的 文件 
将 GridFS 中 存储 的 文件 下 载 到 本 地 文件 系统 中 ,在 MongoDB 的 bin 目录 下 执行 如 下 


$ ./mongofiles - - host = 192. 168. 121. 134: 27017 - u itcastAdmin - p 123456 
-authenticationDatabase 

"admin -d testfiles get datafile.csv -1 /opt/servers/mongodb demo/gridfs/datafile/ 
local datafile.csv 

connected to: mongodb: //192.168.121.134:27017/ 


finished writing to /opt/servers/mongodb demo/gridfs/datafile/local datafile.csv 


上 述 命令 中 ,get 参数 用 于 指定 要 下 载 GridFS 中 的 文件 名 ;一 1 参数 用 于 指定 将 文件 下 
载 到 本 地 文件 系统 的 目录 并 将 文件 名 修改 为 local_datafile.csv。 如 不 指定 “一 1 选项 则 默认 
将 文件 保存 到 当前 目录 下 ,并且 名 称 不 变 。 

执行 完 上 述 命令 后 ,会 返回 文件 下 载 后 存储 在 本 地 文件 系统 的 目录 信息 , 即 *finished 


writing to…… A 
5. 删除 GridFS 中 的 文件 
通过 指定 GridFS 中 的 文件 名 删除 对 应 文件 ,在 MongoDB 的 bin 目录 下 执行 如 下 


命令 : 
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$ ./mongofiles - - host - 192. 168. 121. 134: 27017 - u itcastAdmin - p 123456 
-authenticationDatabase 

=admin -d testfiles delete datafile.csv 

connected to: mongodb://192.168.121.134:27017/ 


successfully deleted all instances of 'datafile.csv' from GridFS 


上 述 命令 中 ,deleted 参数 用 于 通过 文件 名 删除 GridFS 中 的 文件 ,执行 完 上 述 命令 后 ， 
会 返回 是 否 成 功 删除 文件 的 信息 ,如 信息 中 包含 successfully deleted…..”, 则 说 明文 件 删 
除 成 功 。 

四 多 学 一 招 : 参数 authenticationDatabase 的 使 用 

mongofiles 命令 行 工 具 中 参数 authenticationDatabase 用 于 指定 当前 用 户 拥 有 哪个 数 
据 库 的 权限 ,因为 我 们 在 第 4 章 创建 的 itcastAdmin 用 户 为 全 局 管理 用 户 , 因 此 这 里 使 用 
admin 数据 库 作 为 用 户 验证 数据 库 , 在 -d 中 指定 的 数据 库 可 以 为 MongoDB 中 任意 数据 库 
或 者 创建 新 的 数据 库 。 

如 在 创建 用 户 时 指定 拥有 权限 的 数据 库 不 是 admin 或 者 该 用 户 只 是 一 个 普通 用 户 ( 该 
普通 用 户 至 少 拥有 读 写 权 限 ) ,例如 在 主 结 点 的 mongo 客户 端 使 用 如 下 命令 创建 用 户 


# 首 先 切换 到 全 局 管理 用 户 
itcast:PRIMARY»use admin 
itcast:PRIMARY»db.auth("itcastAdmin","123456") 
1 
# 在 school 数据 库 下 创建 只 有 管理 该 数据 库 权限 的 用 户 , 并 赋予 读 写 权 限 
itcast:PRIMARY»use school 
itcast:PRIMARY»db.createUser((user:"itcastUser", pwd:"123456", roles: [(role:"readWrite", 
db:"school")]]) 
Successfully added user: { 
"user" : "itcastUser", 
Trolem"'s 
t 
"role" : "readWrite", 
"db" : "school" 


上 述 命令 中 ,在 school 数据 库 下 创建 了 一 个 用 户 itcastUser, 该 用 户 只 拥有 school 数据 
库 的 读 写 权限 ,并 且 仅 限于 数据 库 school。 

如 果 我 们 使 用 上 述 创 建 的 用 户 itcastUser 将 本 地 文件 系统 上 的 文件 datafile.csv 上 传 
到 GridFS 存储 系统 中 ,命令 修改 为 如 下 : 


Smongofiles --host=192.168.121.134:27017 -u itcastUser -p 123456 --authenticationDatabase 
-school 


-d school -1 /data/mongodb/datafile/datafile.csv put new datafile.csv 


上 述 命令 中 ,-d 选 项 只 能 指定 为 school, 因 为 该 用 户 只 有 数据 库 school 的 读 写 权 限 ( 不 
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可 以 不 指定 或 者 指定 其 他 数据 库 , 因 为 itcastUser 为 普通 用 户 , 不 具备 在 MongoDB 数据 库 
中 创建 数据 库 使 用 默认 test 数据 库 的 权限 ) ,并 且 --authenticationDatabase 选项 同样 需要 填 
写 school 作为 用 户 认 证 数据 库 。 


6.3.2 使 用 Java 操作 MongoDB GridFS 
1. 创建 Maven 项 目 


打开 IDEA 工具 , 单 击 Create New Project> Maven, 选 择 创建 一 个 Maven 项 目 , 命 名 
2J nosql chapter06, (注意 : 关于 IDEA 工具 的 配置 和 项 目的 创建 可 参照 3.8 节 , 这 里 就 不 
VEIR) 。 


2. 导入 依赖 


在 项 目 nosql. chapter06 中 配置 pom.xml 文件 ,也 就 是 引入 MongoDB 相关 的 依赖 和 单 
元 测试 的 依赖 ,pom.xml 文件 添加 的 内 容 如 下 : 


<dependencies> 

<!- -单元 测试 依赖 --> 

«dependency» 
«groupId»junit«/groupId» 
«artifactId» junit«/artifactId» 
«version»4.12«/version» 

</dependency> 

<!--java 操作 mongoDB 的 驱动 依赖 --> 

<dependency> 
<groupId>org.mongodb</groupId> 
<artifactId>mongo-java-driver</artifactId> 
<version>3.12.1</version> 

</dependency> 


</dependencies> 


当 添 加 完 相关 依赖 后 , Maven 会 自动 下 载 相关 jar 包 , 成 功 引入 依赖 后 ,项 目 结构 如 
图 6-8 所 示 。 


nosql_chapter06 
> Midea 
v msc 
> Ba main 
> Butest 
fl nosql_chapter06iml 
mM pom.xmi 
' illii External Libraries 
> <18> DAProgram FilesUavaVdk1.8.0 161 
> Wi Maven:junitjunit4.12 
> ihi Maven: org.hamcresthamcrest-core:1.3 
> Bi Maven: org.mongodb:mongo-java-driver:3.12.1 
> Vg Scratches and Consoles 


6-8 创建 好 的 Maven MA 
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3. 创建 资源 文件 ,指定 MongoDB 相关 参数 


在 项 目 nosql chapter06 的 目录 /src/main/resources 下 创建 一 个 名 为 mongodb. 
properties 文件 ,该 文件 用 于 存储 连接 MongoDB 副本 集中 GridFS 所 需要 的 参数 ,具体 内 容 
如 文件 6-1 所 示 。 


文件 6-1 mongodb.properties 


host1-192.168.121.134 
host2-192.168.121.135 
host3-192.168.121.136 
port-27017 
username-itcastAdmin 
password-123456 
Source-admin 


dbname-testfiles 


上 述 文件 包含 8 个 参数 ,分 别 是 hostl , host2, host3, port, username, password, source 
以 及 dbname, 其 中 hostl ,host2 和 host3 表示 主机 的 IP 地 址 (因为 我 们 使 用 的 是 MongoDB 
副本 集 , 并 且 副 本 集 是 由 主 / 副 / 副 三 个 结 点 构成 ,如 果 副 本 集 是 由 主 / 副 / 仲 裁 三 个 结 点 构 
成 , 则 只 需 添加 主 / 副 结 点 即 可 ) ;port 表示 端口 号 ;username 表示 MongoDB 数据 库 的 用 户 
名 称 ( 若 未 开启 安全 认证 , 则 不 需要 该 参数 ) ;password 表示 MongoDB 数据 库 的 密码 (若是 
未 开启 安全 认证 , 则 不 需要 该 参数 ) ;source 表示 用 户 认 证 数据 库 ( 用 户 创建 时 db 参数 中 指 
定 的 数据 库 ) ;dbname 表示 要 操作 的 数据 库 名 称 。 


4. 创建 Java 工具 类 ,连接 MongoDB 副本 集中 的 GridFS 


在 项 目 nosql_chapter06 目录 /src/main/java 下 创建 一 个 名 为 com.itcast.mongodb 包 ， 
并 在 该 包 下 创建 MongoUtils.java 文件 ,该 文件 用 于 编写 Java 连接 MongoDB 副本 集中 
GridFS 的 工具 类 ,具体 代码 如 文件 6-2 所 示 。 
文件 6-2 MongoUtils.java 


import com.mongodb.MongoClientSettings; 
import com.mongodb.MongoCredential; 
import com.mongodb.ServerAddress; 


import com.mongodb.client.MongoClient; 


x 
2 
3 
4 
5 import com.mongodb.client.MongoClients; 
6 import com.mongodb.client.MongoDatabase; 

7 import com.mongodb.client.gridfs.GridFSBucket; 
8 import com.mongodb.client.gridfs.GridFSBuckets; 
9 import java.io.IOException; 

10 import java.io.InputStream; 

11 import java.util.Arrays; 

12 import java.util.Properties; 

13 public class MongoUtils { 

14 private static Properties properties; 


15 private static InputStream stream —null; 
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在 上 述 代码 中 ,第 16 一 23 行 代码 声明 连接 MongoDB 副本 集中 GridFS 所 需要 的 成 员 
对 象 和 成 员 变量 ;第 28 一 56 行 代码 创建 一 个 静态 代码 块 ,用 于 获取 配置 文件 中 连接 
MongoDB 副本 集中 GridFS 的 配置 信息 ,并 将 这 些 配 置信 息 赋 值 给 对 应 的 成 员 变 量 ,该 静 
态 代码 块 在 类 加 载 过 程 中 的 初始 化 阶段 执行 ,并 且 只 执行 一 次 ;第 58 一 75 行 代码 定义 一 个 
getMongoClient() 方 法 ,用 于 获取 MongoDB 副本 集 的 连接 对 象 ; 第 77 一 83 行 代 码 定义 一 
个 getGridFSConn() 方 法 ,用 于 实现 连接 GridFS 中 指定 的 数据 库 。 


5. 创建 Java 测试 类 ,操作 GridFS 


在 项 目 nosql_chapter06 目录 /src/test/java 下 创建 一 个 名 为 TestGridFS.java 的 文件 ， 
具体 代码 如 文件 6-3 Bron 。 
文件 6-3 TestGridFS.java 


6. 上 传 文件 


在 TestGridFS.java 中 ,定义 一 个 uploadFile() 方 法 ,主要 用 于 演示 将 本 地 文件 系统 中 
的 文件 上 传 到 GridFS 中 数据 库 testfiles 中 ,具体 代码 如 下 : 
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6 GridFSUploadOptions options =new GridFSUploadOptions() 

9 .chunkSizeBytes (358400); // 定 义 块 大 小 

8 // 创 建 上 传 文件 流 对 象 , 并 指定 配置 参数 和 文件 在 GridFs 上 显示 的 名 称 
9 


GridFSUploadStream uploadStream = 


10 gridFSBucket.openUploadStream("Redis.avi", options); 
11 // 一 次 性 读 取 文件 ,将 文件 转 为 Byte[] 包 含 文件 内 容 的 字 节 数组 

12 byte[] data -Files.readAllBytes( 

13 new File ("D: \\MongoDB\\Data\\Redis 介绍 .avi") .toPath()); 
14 // 以 字 节 数组 形式 上 传 文件 流 到 GridFs 

15 uploadStream.write(data); 

16 // 关 闭 流 

da uploadStream.close(); 

18 System.out .println(" 文 件 id 为 : " 

19 +uploadStream.getObjectId() .toHexString())7 
20 ) catch (IOException e)( 

21 // handle exception 

22 ) 

23 } 


在 上 述 代 码 中 ,第 1 行 代码 添加 @Test 注解 用 于 测试 ;第 3 行 代码 通过 调用 工具 类 
MongoUtils 中 的 getGridFSConn() 方 法 创建 连接 GridFS 的 对 象 gridFSBucket; 第 6,7 行 
代码 配置 上 传 文件 的 参数 ;第 9 一 15 行 代 码 实现 读 取 本 地 系统 文件 上 传 到 GridFS 中 ， 
GridFSUploadStream 对 象 uploadStream 会 将 上 传 的 数据 流 读 取 到 内 存 中 , 当 读 取 数 据 流 
的 大 小 到 达 chunkSizeBytes 设置 的 大 小 , 则 将 数据 流 以 块 的 形式 插入 到 fs.chunks 集合 中 ， 
当 完 成 最 后 的 块 插入 后 ,会 将 文件 的 元 数据 插入 到 fs.files 集合 中 ;第 18,19 行 代码 打印 文 
件 上 传 完 成 后 返回 文件 在 GridFs 中 的 id。 

运行 uploadFile () 方 法 ,然后 查看 IDEA 工具 的 控制 台 输出 ,效果 如 图 6-9 所 示 。 


Run: — ** TestGridfs.uploadFile 2 一 
pm» v Tests passed: 1 of 1 test - 4s 430 ms 


o [TEN Xf EUERSEEEEEEESSES | 个 


n v uploadFile 4s 430ms 


Process finished with exit code 0 4 


» » 
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图 6-9 上 传 文件 


从 图 6-9 中 可 以 看 出 ,运行 uploadFile() 方 法 ,控制 台 显 示 出 文件 的 id。 
7. 查看 文件 


在 TestGridFS.java 中 ,定义 一 个 getFiles() 方 法 ,主要 用 于 演示 查看 GridFS 中 数据 库 
testfiles 下 的 所 有 文件 ,具体 代码 如 下 : 


1 erest 
2 public void getFiles()( 
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在 上 述 代码 中 ,第 1 行 代码 添加 @Test 注解 用 于 测试 ;第 3 行 代码 通过 调用 工具 类 
MongoUtils 中 的 getGridFSConn() 方 法 创建 连接 GridFS 的 对 象 gridFSBucket; 第 4 一 12 
行 代码 调用 对 象 gridFSBucket 中 的 find() 方 法 获取 GridFS 中 数据 库 testfiles 下 的 所 有 文 
件 ,通过 forEach 遍历 每 个 文件 。gridFSFile 对 象 中 包含 每 个 文件 的 元 数据 信息 。 

运行 getFiles () 方 法 ,然后 查看 IDEA 工具 的 控制 台 输 出 ,效果 如 图 6-10 所 示 。 


图 6-10 查看 文件 
从 图 6-10 中 可 以 看 出 ,运行 getFilesQ 〇 ) 方 法 ,控制 台 显示 出 文件 的 文件 名 、 文 件 大 小 及 
文件 id 三 个 信息 。 
8. 下 载 文件 


在 TestGridFS.java 中 ,定义 一 个 downloadFile() 方 法 ,主要 用 于 演示 下 载 GridFS 中 数 
据 库 testfiles 下 的 指定 文件 ,具体 代码 如 下 : 


$4 63 MongoDB GridFS ”是 95 


13 * streamToDownloadTo, downloadOptions); 
14 Ei 

15 // 通 过 GridFs 中 的 文件 id 以 数据 流 的 形式 下 载 文件 , 并 将 数据 流传 给 输出 流 对 象 
16 //streamToDownloadTo, 这 里 的 ObjectId 须 根据 实 际 情况 进行 更 改 

17 gridFSBucket.downloadToStream( 

18 new ObjectId("5e74c48a9e825e6386b2aeb5") , st reamToDownloadTo) ; 

19 // 关 闭 流 

20 streamToDownloadTo.close(); 

21 } catch (IOException e) ( 

22 // handle exception 

23 ) 

24 ] 


在 上 述 代码 中 ,我 们 在 对 应 的 代码 处 进行 了 相应 的 注解 ,这 里 就 不 再 做 描述 。 运行 
downloadFile() 方 法 ,在 D:\\MongoDB\\Data\\ 目 录 下 查看 下 载 的 文件 ,效果 如 图 6-11 所 示 。 


| = | Data Fu 一 口 x 
| =4 :xm +s ss wma -0 
e -个 « MongoDB » Data vO 搜索 "Data” ^ 
PI 
@ OneDrive a, 
Em 
"T datafile.csv 
3 个 项 目 E: 
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从 图 6-11 中 可 以 看 出 ,运行 downloadFileO ) 方 法 ,文件 被 成 功 下 载 到 本 地 文件 系统 的 
D:\\MongoDB\\Data\\ 目 录 下 。 


9. 重 命名 文件 


在 TestGridFS.java 中 ,定义 一 个 renameFile() 方 法 ,主要 用 于 演示 重 命名 GridFS 中 数 
据 库 testfiles 下 的 指定 文件 ,具体 代码 如 下 : 


1 Test 

2 public void renameFile()( 

3 GridFSBucket gridFSBucket -MongoUtils.getGridFSConn(); 

4 gridFSBucket.rename( 

5 new ObjectId("5e74c48a9e825e6386b2aeb5"), "Redis new.avi"); 
6 


} 


在 上 述 代码 中 ,第 3 行 代码 通过 调用 工具 类 MongoUtils 中 的 getGridFSConn() 方 法 创建 
连接 GridFS 的 对 象 gridFSBucket; 第 4 和 第 5 行 代 码 通 过 在 rename 方法 中 指定 文件 id 和 重合 
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名 的 名 称 实现 GridFS 中 文件 的 重 命名 。 注 意 : 这 里 的 文件 id 须根 据 实际 情况 进行 更 改 。 
运行 renameFile() 方 法 后 ,再 次 运 getFiles() 方 法 ,然后 查看 IDEA 工具 的 控制 台 输 出 ， 
效果 如 图 6-12 所 示 。 


w Tests passed: 1 of 1 test - 2s 705 ms 
文件 名 : 文件 大 小 : 6335460 文件 id:5e74c48a9e825e6386b2aeb5 


Process finished with exit code 0 
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图 6-12 重 命 名 文件 


从 图 6-12 中 可 以 看 出 ,运行 getFiles() 方 法 ,文件 名 由 Redis.avi 变更 为 Redis_new.avi。 
10. 删除 文件 


在 TestGridFS.java 中 ,定义 一 个 delFile() 方 法 ,主要 用 于 演示 删除 GridFS 中 数据 库 
testfiles 下 的 指定 文件 ,具体 代码 如 下 : 


@Test 
public void delFile()( 


1 

D 

3 GridFSBucket gridFSBucket -MongoUtils.getGridFSConn(); 

4 gridFSBucket.delete (new ObjectId("5e74c48a9e825e6386b2aeb5")) ; 
5 


) 


在 上 述 代 码 中 ,第 3 行 代码 通过 调用 工具 类 MongoUtils 中 的 getGridFSConn O 77 i 8] 
建 连接 GridFS 的 对 象 gridFSBucket; 第 4 行 代码 通过 在 delete 方法 中 指定 文件 id 实现 
GridFS 中 文件 的 删除 。 注 意 : 这 里 的 文件 id 须根 据 实 际 情况 进行 更 改 。 

运行 delFile() 方 法 后 再 次 运行 getFiles() 方 法 ,然后 查看 IDEA 工具 的 控制 台 输 出 , 效 
果 如 图 6-13 Bros 。 


Rum 4> TestGridfsgetFiles ~ 


wo 上 X » vTests passed: 1of1 test - 25669 ms 


TestGridfs | 


w'getHles 2 w| Process finished with exit code 0 | 


» 
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从 图 6-13 中 可 以 看 出 ,运行 getFiles() 方 法 ,GridFS 中 数据 库 testfiles 下 已 经 没有 了 文件 。 

全: 脚下 留心 : 编写 程序 过 程 中 IDEA 有 可 能 会 报 如 下 错误 “lambda expressions are not 
supported at this language level”, 解 决 步骤 如 下 。 

(1) Æ IDEA 中 选择 File Project Stucture, 打 开 Project Stucture 页 面 ,在 该 页 面 中 单 
击 Modules 选项 ,将 Language level 改 为 如 图 6-14 所 示 方 框 中 的 内 容 。 
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B Project Structure x 
et +-Ā Name: | nosql chapter06 ] 
Project setungs MESSEN | 
Project Sources Paths. Dependencies 
Language m 8 - Lambdas, type annotations etc. 
Markas: ME Sources M Tests ME Resources {Test Resources BW Excluded 
(V B DAwork\ideaProjectinosqi_chapter06 | + Add content Root 
Platform Settings > Midea DA..ideaProject\nosql chapter05 
> m E 
SOS = Source Folders 
Global Libraries > Batarget srcNmainNava ’ 
Test Source Folders 
Problems srevestjava. 7 


sre\main\test z 


Resource Folders 
srevmainvescurces. 7 


Excluded Folders 
target 


Exclude files: 


Use; t0 separate name patterns, * for any 
number of symbols, ? for one. 


图 6-14 修改 Language level 


修改 完成 后 单 击 图 6-14 中 的 OK 按钮 完成 配置 。 
(2) Æ IDEA 中 选择 File>Settings, 4r F Settings 页 面 ,在 该 页 面 中 依次 选择 “Build， 


" 


Execution. Deployment" — Compiler > Java Compiler. 将 Project bytecode version 和 


Target bytecode version 两 个 配置 项 均 改 为 如 图 6-15 所 示 方 框 中 的 内 容 。 


网 Settings x 
Q Build, Execution, Deployment Compiler > Java Compiler For current project 
? Appearance & Behavior. Use compiler: [Javac ~ 

Keymap 口 Use '--release' option for cross-compilation (Java 9 and later) 


Per-module bytecode version: 


ne meme: ] 
Plugins. o 
a 


> Version Control. 


~ Build, Execution, Deployment. leeran 
? Build Tools e = 
v Compiler 
Excludes e 
Annotation Processors — v || Javac Options 
Vidation » E] Use compiler from module target JDK when possible 
RMI Compiler e F Generate debugging info. 
Groovy Compiler. € E] Report use of deprecated features. 
ActionScript & Flex Compile = 口 Generate no warnings 
Kotiin Compiler a Additional command line parameters: (f recommended in paths for cross-platform configurations) 
Android Compilers e 
> Scala Compiler e 
? Debugger Override compiler parameters per-module: 
Remote Jar Repositories Ee Module Compilation options + 
> Deployment. - 
Arquillian Containers Additional compilation options will be the same for all modules 
Application Servers 
Clouds 图 
Coverage e 
Deployment 


o [el 
6-15 ”修改 Java Compiler 
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修改 完成 后 单 击 图 6-15 中 的 OK 按钮 完成 配置 。 

(3) 确保 项 目 配置 的 JDK 的 版 本 是 1.8 及 以 上 。 

如 运行 程序 过 程 中 ,出 现 java. Net. UnknownHostException 的 错误 , 则 需要 向 hosts 文 
件 中 添加 副本 集 三 个 结 点 的 主机 名 和 ip 映射 ,如 使 用 的 是 Windows 系统 , 则 hosts 文件 在 
C:\Windows\System32\drivers\etc 目录 下 ,具体 配置 内 容 如 下 : 


192.168.121.134 nosql01 
192.168.121.135 nosq102 
192.168.121.136 nosq103 


6.3.3 使 用 Python 操作 MongoDB GridFS 
1. 创建 Python 项 目 


打开 PyCharm 工具 , 单 击 Create New Project 进入 创建 Python 项 目的 界面 ,在 该 界面 
中 添加 Python 项 目的 名 称 (nosqL_python_chapter06) ,并 指定 项 目的 存储 路 径 ( 详 细 创 建 过 
程 可 参照 第 3 章 的 3.9 节 进 行 查看 ,这 里 就 不 再 做 详细 演示 ) 。 


2. 创建 Python 文件 ,定义 类 名 
在 项 目 nosql. python chapter06 目录 下 创建 一 个 名 为 TestGridFS.py 的 文件 ,在 该 文件 中 


定义 类 Test 。 该 类 主要 用 于 操作 MongoDB 副本 集中 的 GridFS, 具 体 代码 如 文件 6-4 所 示 。 
文件 6-4  TestGridFS.py 
from pymongo import MongoClient 


import gridfs 


import io 


& 0I 


class Test: 


上 述 代码 中 ,第 1 和 第 2 行 引 入 pymongo 和 gridfs 两 个 模块 用 于 通过 Python 操作 
MongoDB 和 GridFS; 第 3 行 代码 定义 类 名 为 Test( 注 意 : 若 无 法 引入 pymongo 和 gridfs， 
则 需要 在 命令 行 窗 口 (CMD) 执 行 pip install pymongo) 。 


3. 定义 类 的 构造 方法 


在 TestGridFS.py 文件 中 定义 __init__() 方 法 ,用 于 传递 连接 MongoDB 副本 集中 
GridFS 的 相关 参数 ,该 方法 为 类 中 的 特殊 方法 (构造 方法 ) ,在 类 实例 化 时 会 自动 调用 ,并 将 
该 方法 中 的 参数 传 到 类 的 实例 中 ,具体 代码 如 下 : 


def | init _(self,username,password,sourcefile, replica, filedb): 
self.username -username 
self.password —-password 
self.sourcefile -sourcefile 
self.replica —replica 


self.filedb =filedb 
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上 述 代码 中 ,我 们 定义 了 连接 MongoDB 副本 集中 GridFS 的 相关 参数 ,其 中 包括 用 户 
名 、 密 码 、 用 户 认证 数据 库 、 副 本 集 名 称 和 要 操作 的 数据 库 名 称 。 


4. 创建 连接 


在 TestGridFS.py 文件 中 定义 方法 createGridFS(), 用 于 连接 通过 用 户 认证 方式 操作 
MongoDB 副本 集 下 GridFS 存储 中 指定 的 数据 库 , 具 体 代码 如 下 : 


1 
2 
3 
4 
5 
6 
T 
8 


def createGridFS (self): 

client =MongoClient ('mongodb: //%s:%s@192.168.121.134:27017' 
',192.168.121.135:27017" 
',192.168.121.136:27017/? authSource-$s&replicaSet-$5' $% 
(self.username, self.password,self.sourcefile,self.replica)); 

db -client[self.filedb] 

fs -gridfs.GridFS (db) 

return fs 


上 述 代 码 中 ,第 1 一 5 行 在 url 中 指定 连接 MongoDB 副本 集 的 用 户 名 、 密 码 ` 地 址 ( 主 / 
副 结 点 ) 、 端 口号 、 用 户 认 证 数据 库 、 副 本 集 名 称 这 几 项 参数 创建 MongoDB 副本 集 连 接 对 象 
client; 第 6 行 代码 指定 操作 的 数据 库 ; 第 7 行 代码 创建 GridFS 连接 。 


5. 上 传 文件 


在 TestGridFS.py 文件 中 定义 方法 insertGridFS(), 用 于 向 GridFS 中 存储 文件 ,具体 
代码 如 下 : 


1 
2 
3 
4 
5 
6 
T 
8 
9 
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def insertGridFS(self,file path,file name,fs): 
if fs.exists(file name): 
print ("文件 已 经 存在 !!!") 
else: 
with open (file path, 'rb') as fileObj: 
data =fileObj .read() 
ObjectId =fs.put (data, filename =file path.split('/') [-1]) 
print (ObjectId) 
fileObj.close() 
return Objectid 


上 述 代 码 中 ,第 2,3 行 代码 判断 上 传 文件 名 是 否 存在 ;第 5 一 9 行 代码 先 将 本 地 文件 写 
入 文件 对 象 fileObj ,然后 该 对 象 调 用 read() 方 法 读 取 数据 ,最 终 将 数据 与 文件 名 称 通 过 
GridFS 的 put() 方 法 存 和 人 GridFS 中 并 返回 文件 的 idCObjectId) ,打印 文件 id 为 文件 删除 、 
文件 读 取 做 准备 。 


6. 获取 文件 元 数据 信息 


在 TestGridFS.py 文件 中 定义 方法 getFileProperty() ,用 于 向 GridFS 中 指定 文件 id 的 
属 元 数据 信息 ,具体 代码 如 下 : 


aL 
2 


def getFileProperty (self, fs, id) : 
gf-fs.get(id) # 通 过 文件 id 获取 文件 属性 对 象 
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3 bdata-gf.read() # 二 进 制 数据 

4 attri-() # 文 件 元 数据 信息 

5 attri['chunk size']-gf.chunk size # 块 大 小 

6 attri['length']=gf.length # 文 件 大 小 

7 attri["upload date"] =gf.upload date # 上 传 日 期 

8 attri["filename"] =gf.filename # 文 件 名 

9 attri['md5']-gf.md5 #md5 

10 print (attri) # 打 印 文件 元 数据 信息 

11 return (bdata,attri) # 返 回 文件 元 数据 信息 和 文件 二 进 制 数据 


上 述 代码 中 ,我们 通过 文件 id 获取 文件 元 数据 对 象 ,通过 该 对 象 获取 文件 二 进 制 数据 、 
文件 名 ,文件 大 小 、 块 大 小 等 一 系列 信息 。 


7. 获取 文件 id 和 文件 列表 


在 TestGridFS.py 文件 中 定义 方法 getFilesO ,用 于 获取 GridFS 中 指定 文件 的 id 和 文 
件 列表 ,具体 代码 如 下 : 


1  defgetFiles(self,file name,fs): 

2 ObjectId-fs.find one(file name). id 

3 print(' 文 件 列 表 :%s'% (fs.1ist())) 

4 print('$s 文件 id:%s'% (file name.get('filename'),ObjectId)) 
5 return ObjectId 


上 述 代码 中 ,第 2 行 代码 利用 GridFS 对 象 的 find_one() 方 法 ,通过 文件 名 获取 文件 id; 
第 3 行 代码 利用 GridFS 对 象 的 list() 方 法 获取 文件 列表 并 打印 ;第 4 行 代码 打印 文件 的 文 
件 名 和 文件 id; 第 5 行 代 码 设置 方法 返回 值 为 文件 id。 


8. 下 载 文 件 


在 TestGridFS.py 文件 中 定义 方法 downloadFileO ,用 于 下 载 GridFS 中 指定 文件 到 本 
地 ,有 具体 代码 如 下 : 


1 def downloadFile(self,dbdata,download path): 

2 output -io.open (download path, mode- 'wb') 
3 output.write(dbdata) 

4 output.close() 

5 print ("download ok!") 


上 述 代码 中 ,第 2 行 代码 用 于 指定 文件 下 载 的 路 径 写 入 output 对 象 ;第 3 行 代码 通过 
output 对 象 的 write( ) 方 法 将 二 进 制 数据 写 和 文件 ;第 4 行 代码 关闭 output 对 象 ; 第 5 行 代 
码 用 于 在 downloadFile 方法 运行 完成 后 打印 的 自 定义 内 容 。 

9. 删除 文件 


在 TestGridFS.py 文件 中 定义 方法 deleteFileO ,用 于 删除 GridFS 中 指定 文件 ,具体 代 
人 码 如 下 : 
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1 def deleteFile (self, id, fs) : 
2 fs.delete (id) 
3 print('delete ok! ') 


上 述 代 码 中 ,第 2 行 代 码 通过 调用 GridFS 对 象 中 的 delete() 方 法 删除 指定 id 的 文件 ; 
3 行 代码 用 于 在 deleteFile() 方 法 运行 完成 后 打印 的 自 定义 内 容 。 


3 


10. main 方法 
在 TestGridFS.py 文件 中 定义 程序 人 口 main 方法 ,用 于 代码 测试 ,具体 代码 如 下 : 


1 if name  --' main "': 

2 # 实 例 化 类 Test 并 传人 连接 参数 , 创建 Gridgs 连接 

3 test -Test("itcastAdmin","123456", "admin","itcast", "testfiles") 
4 fs -test.createGridFS() 

5 # 上 传 文件 ,返回 文件 ia 

6 print ('eeeeeec 关上 [3C (peeeeoeceneecene x 1) 

jt file name -( 'filename':'testdata.csv') 

8 file path -'D:/MongoDB/Data/testdata.csv" 

9 id -test.insertGridFS(file path,file name,fs)\ 


10 # 通 过 文件 名 获取 文件 ia 

am print ( eeeeceoeek x 获取 文件 id 并 打印 文件 列表 x%x%xxx%xxxx%%") 

12 ObjectId -test.getFiles(( 'filename':'testdata.csv']),fs) 

13 # 获 取 文件 属性 attri 和 文件 二 进 制 数据 dbdata 

14 print ('xxxxxxxxxxx¥ 获 取 文 件 元 数据 信息 及 二 进 制 数据 xxxxxxxxxxxx x 1) 
an (dbdata,attri)-test.getFileProperty(fs, ObjectId) 

16 # 下 载 文件 到 本 地 

17 print (nunen x 下 ARCH peeeeeoeneee t) 

18 download path -'D:/MongoDB/downloadFile/$s'$ (attri['filename']) 
19 test.downloadFile(dbdata, download path) 

20 # 删 除 文件 

21 print ('e9oeecoodpi Bk JC (Ieeeeceeeoeneer 1) 

22 test.deleteFile(ObjectId, fs) 


针对 上 述 代 码 内 容 进行 讲解 ,具体 介绍 如 下 : 

第 3、4 行 代码 ,通过 实例 化 类 Test 并 传人 连接 参数 .用 于 创建 MongoDB 副本 集中 
GridFS 连接 。 

55 7—9 行 代码 ,设置 文件 所 在 路 径 file path 和 上 传 到 GridFS 中 的 文件 名 称 file_ 
name, 通 过 Test 类 对 象 test 调用 上 传 文件 方法 insertGridFS() 并 指定 参数 file. path,file _ 
name 及 fs(GridFS 连接 对 象 ) 实 现 文件 上 传 .返回 文件 上 传 后 的 文件 ido 

第 12 行 代码 ,通过 Test 类 对 象 test 调用 getFiles() 用 于 指定 文件 名 来 获取 对 应 文件 
id, 将 返回 值 (文件 id) 赋 值 给 变量 ObjectId。 

第 15 行 代码 ,通过 Test 类 对 象 test 调用 getFileProperty() 方 法 ,用 于 获取 指定 文件 的 
元 数据 信息 ,该 方法 包含 参数 fs CGridFS 连接 对 象 ) 和 ObjectId CX ff. id) ,返回 值 包括 
dbdata( 文 件 二 进 制 数据 ) 和 attri( 文 件 元 数据 信息 )。 因 为 二 进 制 数据 内 容 较 多 ,因此 在 该 
方法 中 我 们 只 打印 文件 元 数据 信息 ,文件 二 进 制 数据 在 后 续 的 下 载 文 件 时 使 用 。 
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第 18,19 行 代码 ,指定 文件 下 载 路 径 及 存储 到 本 地 的 文件 名 (这 里 我 们 使 用 文件 名 与 
GridFS 中 的 文件 名 一 致 ) ,这 里 指定 的 下 载 路 径 需 要 提前 创建 。 通 过 Test 类 对 象 test 调用 
downloadFile() 方 法 ,用 于 下 载 GridFS 中 指定 的 文件 ,该 方法 包含 两 个 参数 download path 
和 dbdata(getFileProperty() 方 法 中 获取 的 二 进 制 数据 )。 

第 22 行 代码 ,通过 Test 类 对 象 test 调用 deleteFile() 方 法 ,用 于 删除 GridFS 中 指定 的 
文件 ,该 方法 包含 两 个 参数 ObjectId 和 fs。 


. 运行 代码 
代码 编写 完成 后 ,首先 选择 运行 的 内 容 , 即 TestGridFS 文件 。 然 后 , 单 击 运 行程 序 的 按 


钮 完成 代码 的 运行 (运行 代码 前 应 先 在 D:/MongoDB/Data/ 目 录 下 放 入 testdata. csv 文件 
并 创建 D:/MongoDB/downloadFile/ 目 录 ), 如 图 6-16 所 示 。 
WE nosql_python_chapter06 - [DAWork\PycharmProjects\nosąl_python_chapter06] - ~ \TestGridFS.py 


Fle Edit View Navigate Code Refactor Run Tools VCS Window Help 加 选择 TestGridFs 
户 nosql_python_chapter06 ) 网 TestGridFS.py ) 


output. close) 
[ print( download okt”) 


» Wh External Libraries. 


© def deletePile(self, id fs) 
fs. delete(id) 


ESPR. ii saa 
din”, ” ^, "itenst^ "testfiles^) 


print( essssssssssssssesssssssssesso! ) 
(dodata, sttri)otest. getFiléPreperty(fs, Objectld) 


[1] | 63:33 CRLF : UTF8: Q 本 


6-16 ”运行 程序 


待 程序 运行 后 ,通过 PyCharm 工具 的 控制 台 查 看 代码 运行 效果 ,具体 如 图 6-17 所 示 。 

在 图 6-17 中 可 以 看 出 ,上 传代 码 运 行 完成 后 返回 文件 的 id; 获 取 文 件 id 并 打印 文件 列 
表 代码 运行 完成 后 返回 文件 列表 中 包含 两 个 文件 并 打印 了 指定 文件 名 为 testdata.csv 的 文 
件 id; 在 获取 文件 元 数据 信息 代码 的 运行 结果 中 显示 了 文件 元 数据 信息 内 容 ; 通 过 控制 台 返 
回 下 载 文件 和 删除 文件 的 信息 ,证 明 相 应 内 容 运 行 成 功 。 

如 需 进 一 步 验证 文件 是 否 下 载 成 功 , 可 查看 我 们 指定 目 D:/MongoDB/downloadFile/ 
下 是 否 有 文件 testdata.csv, 这 里 就 不 再 做 演示 。 

如 需 进 一 步 验证 文件 是 否 上 传 成 功 , 可 注释 main 方法 中 其 他 内 容 只 保留 “获取 文件 id 
并 打印 文件 列表 ”的 方法 ( 除 指定 类 实例 化 参数 和 创建 GridFS 连接 对 象 这 两 行 代码 ) ,运行 
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ME nosql_python_chapter06 - [DAWork\PycharmProjects\nosql_python_chapter06] - .\TestGridFS.py - PyCharm 4.0.4 一 口 x 


Fle Edit View Navigate Code Refactor Run Tools VCS Window Help 


» 


E nosql python chapterü6 ) IÈ TestGridFS.py ) [& Tescidrs -) > k EQ 


|* E nosql python c 


© e Mn | [B TestGridFSpy x 


5 test = Test (^j tenstAdmin", 71234567, "admin", "i teust^, "testfiles^) D 
IÈ TestGridFS.py 


Wh External Libraries 


zB Bari FO 可 
print( seeseseesSAWU Sr [EC EHRIS EUR b Er Rennen ) 
(dodata attri)=test. getFileProperty(fs, ObjectId) 


Run Ë TestGridFs w b 


| D:\Soft\Python\Python38\python3. exe D:/Fork/PycharaProjects/nosql_python_chapter06/Test0ridPS. py | 
eeeeeekes EAT Pb eee eene 

Be7922f4d4958682«34497 29. 

sessi RPH 3 HTEDSE PER eee eene enne 

文件 列表 : [ ner_datafile csv’, "testdata eu ] 

testdata. csy 文 件 id:5s79asfed4958682s344979 

strstrtss 区 了 文件 元 数据 信息 及 二 进 制 数据 certertersrers 

{ chunk_size’ : 261120, 'length : 416273844, 'upload date : datetime. dutetine(2020, 3, 24, 6, 39, 7, 539000), 'filenane’: "testdate csv’, md 
eee ECT Perro 

download ok! 

ceeeonoeoen IER Peer nnne 


delete ok! 


Buduuees 
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图 6-17 运行 效果 


程序 ,如 返回 文件 id 或 者 文件 列表 中 包含 上 传 文件 名 称 , 则 证 明文 件 上 传 成 功 ,这 里 就 不 再 


做 演示 
注 


o 


意 : 如 运行 代码 时 出 现 hostname 相关 问题 可 参照 上 一 小 节 介 绍 的 解决 方式 配置 本 


地 hosts 文件 内 容 。 
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过 本 章 内 容 , 我 们 由 浅 入 深 地 学 习 了 MongoDB 中 GridFS 的 存储 结构 和 基础 操作 ， 
者 可 以 熟悉 GridFS 的 存储 结构 和 掌握 使 用 Shell、Java、Python 操作 GridFS。 


课 后 习题 


一 、 填空 题 
. MongoDB 受 BSON 文件 大 小 的 限制 ,存储 的 文件 大 小 不 可 超过 M. 
. GridFS 将 文件 分 别 存储 到 集合 和 中 。 
. MongoDB 提供 了 与 GridFS 交互 的 命令 行 工 具 ° 


n e D Ne 


. 数据 块 中 存储 数据 。 
. GridFS 基于 持久 化 文件 。 
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二 、 判 断 题 


1. 默认 情况 下 ,GridFS 使 用 的 块 大 小 为 255 KB。 

2. 集合 fs.files 存储 文件 原始 数据 。 

3. fs.files 中 _id 的 值 与 fs.chunks 中 _id 值 的 相对 应 。 
4. 可 以 在 副本 集 的 任意 结 点 操作 GridFS。 

三 、 选 择 题 


1. 下 列 选项 中 ,不 属于 命令 行 工 具 选 项 的 是 ( Ys 
A. db B. u C. local 
2. 下 列 选 项 中 ,文件 的 元 数据 包括 ( Jis 
A. 文件 块 存储 位 置 B. 文件 大 小 
C. 文件 内 容 D. 文件 上 传 时 间 


四 、 简 答题 

简 述 客户 端 在 GridFS 中 查询 文件 的 过 程 。 
五 、 操 作 题 

1. 创建 数据 库 mydb。 


2. 创建 用 户 myuser, 该 用 户 仅 拥有 对 mydb 数据 库 的 读 写 功能 。 


3. 通过 Java 操作 上 传 文件 到 数据 库 mydb, 并 重 命名 文件 名 。 
4. 通过 Shell 查看 文件 的 元 数据 信息 。 
5. 通过 Python 操作 下 载 GridFS 上 的 文件 到 本 地 文件 系统 。 


D. get 


~ 
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学 习 目 标 

* 熟悉 Redis 概念 

。 理解 Redis 支持 的 数据 结构 
* 掌握 Redis 的 部 署 

。 掌握 使 用 redis-cli 操作 Redis 
。 掌握 使 用 Java 操作 Redis 


键 值 对 存储 数据 库 是 NoSQL 数据 库 的 一 种 类 型 ,也 是 最 简单 的 NoSQL 数据 库 。 顾 名 
思 义 , 键 值 对 存储 数据 库 中 的 数据 是 以 键 值 对 的 形式 来 存储 的 。 常 见 的 键 值 对 存储 数据 库 
有 Redis, Tokyo Cabinet/Tyrant, Voldemort 以 及 Oracle BDB 数据 库 。Redis 是 一 个 开源 
的 高 性 能 键 值 对 数据 库 ,本 章 将 针对 Redis 数据 库 的 相关 知识 进行 详细 讲解 。 


7.1 Redis 概述 


7.1.1 Redis 简介 


2008 年 ,意大利 的 一 家 创业 公司 Merzia 推出 了 一 款 基于 MySQL 的 网 站 实时 统计 系统 
LLOOGG ,然而 没 过 多 久 该 公司 的 创始 人 Salvatore Sanfilippo 便 对 MySQL 的 性 能 感到 失 
望 ,于 是 他 决定 亲自 为 LLOOGG 量 身 定制 一 个 数据 库 。 

2009 年 ,为 LLOOGG 量 身 定制 的 数据 库 开发 完成 ,这 个 数据 库 就 是 Redis。 不 过 ， 
Salvatore Sanfilippo 并 不 满足 只 将 Redis 用 于 LLOOGG 这 一 款 产 品 ,而 是 希望 更 多 的 人 使 
用 它 , 于 是 在 同一 年 Salvatore Sanfilippo 将 Redis 开源 发 布 ,并 开始 和 Redis 的 另 一 名 主要 
的 代码 贡献 者 Pieter Noordhuis 一 起 开发 Redis。 

2010 年 , VMware 公司 开始 赞助 Redis 的 开发 , Salvatore Sanfilippo 和 Pieter 
Noordhuis 也 分 别 在 同年 的 3 月 和 5 月 分 别 加 入 VMware, 并 全 职 开发 Redis. 

Remote Dictionary Server, 简 称 Redis, 即 远程 字典 服务 器 , 它 是 一 个 开源 的 、 高 性 能 
的 、 基 于 键 值 对 的 缓存 与 存储 数据 库 ,并 且 通 过 提供 多 种 键 值 数据 结构 来 适应 不 同 场景 下 的 
缓存 与 存储 需求 。Redis 数据 库 是 基于 ANSI C 语言 编写 开发 的 ,并 且 提 供 了 多 种 语言 
API, 例 如 Java、C/C++ ,C£ 、 了 PHP JavaScript, Perl, Python 及 Ruby 等 语言 。 
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7.1.2 Redis 特点 


Redis 数据 库 具 有 读 写 速度 快 ,支持 多 种 数据 结构 、 功 能 丰富 、 应 用 广泛 等 显著 特点 , 具 
体 介绍 如 下 。 


1. 读 写 速度 快 
Redis 数据 库 是 基于 内 存 读 写 的 ,整个 数据 库 的 数据 都 被 加 载 到 内 存 中 进行 操作 或 处 
理 , 它 会 定期 通过 异步 操作 把 数据 写 和 磁盘 进行 保存 ,从 而 保证 了 数据 库 的 容错 性 ,避免 在 


计算 机 断 电 时 ,存储 在 内 存 中 的 数据 丢失 。 据 官方 数据 显示 , Redis 每 秒 可 处 理 超过 十 万 次 
的 读 写 操作 ,因此 被 称 为 NoSQL 中 读 写 速度 最 快 的 数据 库 。 


2. 支持 多 种 数据 结构 


Redis 为 用 户 提供 了 字符 串 LU] ,列表 、 集 合 、 有 序 集合 、 位 图 、 地 理 坐 标 等 一 系列 数据 
结构 ,每 种 数据 结构 都 适用 于 解决 特定 的 问题 。 用 户 还 可 以 通过 事务 、Lua 脚本 、 模 块 等 特 
性 ,扩展 已 有 数据 结构 的 功能 ,甚至 从 零 实现 自 己 专属 的 数据 结构 。 通 过 这 些 数 据 结构 和 特 
性 ,Redis 能 够 确保 用 户 可 以 使 用 适合 的 工具 去 解决 问题 。 


3. 功能 丰富 


Redis 提供 了 很 多 非常 实用 的 附加 功能 ,例如 自动 过 期 ,流水线 .事务 .数据 持久 化 等 丰 
富 的 功能 ,这 些 功 能 能 够 帮助 用 户 将 Redis 应 用 在 更 多 不 同 的 场景 中 ,或 者 为 用 户 带 来 便 
利 。 更 重要 的 是 ,Redis 不 仅 可 以 单机 使 用 ,还 可 以 分 布 在 不 同 机 器 上 使 用 , 即 通过 Redis FH 
带 的 复制 .Sentinel 和 集群 功能 ,用 户 可 以 将 自己 的 数据 库 扩展 至 任意 大 小 。 无 论 你 运营 的 
是 一 个 小 型 的 个 人 网 站 ,还 是 一 个 为 上 千 万 消费 者 服务 的 热门 站 点 ,都 可 以 在 Redis 中 找到 
想 要 的 功能 ,并 将 其 部 署 到 服务 器 中 。 


4. 应 用 广泛 


Redis 在 互联 网 公司 中 得 到 了 广泛 应 用 ,例如 , 微 博 .Twitter`GitHub Stack Overflow, 
知 乎 等 国内 外 公司 都 大 量 地 使 用 了 Redis。 再 加 上 许多 开发 者 为 不 同 的 编程 语言 开发 了 相 
应 的 客户 端 (redis.io/clients) ,因此 大 多 数 编程 语言 的 使 用 者 都 可 以 轻而易举 地 找到 所 需要 
的 客户 端 , 从 而 可 以 直接 开始 使 用 Redis。 此 外 ,多 个 云 服务 提供 商 ,如 亚马逊 、 谷 歌 、 
RedisLabs、 阿 里 云 和 腾讯 云 等 都 提供 了 基于 Redis 或 兼容 Redis 的 服务 。 


7.1.3 Redis 应 用 场景 


Redis 数据 库 主 要 被 应 用 于 缓存 、 构 建 队列 系统 、 排 行 榜 、 实 时 的 反 垃圾 系统 、 过 期 数据 
自动 处 理 以 及 计数 器 应 用 等 高 并 发 场景 ,具体 介绍 如 下 。 


1. 缓存 


缓存 是 Redis 最 常见 的 应 用 场景 ,因为 缓存 操作 是 指 把 数据 存储 在 内 存 而 不 是 硬盘 上 ， 
而 访问 内 存 远 比 访问 硬盘 的 速度 要 快 得 多 .所 以 用 户 可 以 通过 把 需要 快速 访问 的 数据 存储 
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在 Redis 中 来 提升 应 用 程序 的 速度 。 
2. 构建 队列 系统 


目前 队列 系统 的 应 用 十 分 广泛 ,很 多 互联 网 电 商 网 站 均 使 用 Redis 数据 库 中 的 List 实 
现 队列 。 常 见 的 应 用 场景 有 电 商 网 站 的 秒杀 、 抢 购 以 及 12306 网 站 的 购 票 排队 (候补 ) 等 。 


3. 排行 榜 


Redis 数据 库 使 用 有 序 集合 按照 应 用 的 得 分 进行 排序 ,从 而 得 到 TopN。 常 见 的 应 用 场 
景 有 微 博 热 搜 榜 、 游 戏 排行 榜 等 。 


4. 实时 的 反 垃 圾 系统 


实时 的 反 垃圾 系统 通常 是 基于 关键 词 的 ,因此 使 用 Redis 存储 关键 词 ,并 利用 Redis 的 
高 性 能 ,为 监控 系统 提供 稳定 及 精确 的 实时 监控 功能 。 常 见 的 应 用 场景 有 邮件 系统 .评论 系 
5. 过 期 数据 自动 处 理 


Redis 针对 数据 都 可 以 设置 过 期 时 间 ( 可 以 精确 到 毫秒 ) ,过 期 的 数据 会 自动 清理 ,从 而 
提高 开发 效率 。 常 见 的 应 用 场景 有 短信 验证 码 . 具 有 时 间 性 的 商品 展示 等 。 


6. 计数 器 应 用 


由 于 Redis 采用 的 是 单线 程 ,并 且 线程 安全 ,诸如 统计 点 击 数 等 应 用 使 用 Redis 可 以 避 
免 并 发 问题 ,从 而 保证 统计 结果 不 会 出 错 。 常 见 的 应 用 场景 有 网 站 访问 统计 .广告 点 击 数 的 
统计 等 。 


7.2 Redis 支持 的 数据 结构 


Redis 数据 库 提 供 了 多 种 数据 结构 ,其 中 最 常见 的 数据 结构 有 String( 字 符 串 )、List( 列 
AD .Set( 集 合 ) Hash( 散 列 ) Sorted Sets( 有 序 集合 ) 。 本 节 将 详细 讲解 Redis 常见 的 这 五 
种 数据 结构 。 


1. String 


String 是 Redis 中 最 基本 也 是 最 简单 的 数据 结构 ,其 值 是 二 进 制 安全 的 , 值 的 数据 类 型 
可 以 为 数字 、 文 本 、 图 片 、 视 频 或 者 序列 化 的 对 象 等 , 值 的 最 大 长 度 不 能 超过 512MB。String 
的 内 部 组 成 结构 如 图 7-1 所 示 。 


Bookid 100020 


7-1 String 的 内 部 结构 示意 图 
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在 图 7-1 中 ,将 Bookid 看 作 是 编程 语言 中 的 字符 串 变 量 名 ,那么 100020 就 是 该 变量 名 
的 值 。 


2.List 


List( 列 表 ) 是 由 若干 个 字符 串 元 素 组 成 的 集合 ,并 且 每 个 字符 串 元 素 都 是 按照 插入 顺 
序 排序 的 。 我 们 也 可 以 将 列表 理解 为 多 个 字符 串 组 成 一 个 集合 对 象 , 并 按照 链表 (Link 
List) 的 插入 顺序 排序 ,在读 写 操作 时 只 能 从 其 头 部 或 尾部 开始 ,而 不 能 从 中 间 开 始 ( 由 链表 
的 寻 址 方式 所 决定 ) List 的 内 部 组 成 结构 如 图 7-2 所 示 。 


键 (Key) 值 (Value) 


——— ———————— 


100020 


LBookid 


图 7-2 List 的 内 部 结构 示意 图 


在 图 7-2 中 ,LBookid 为 列表 的 键 名 ,100020、100021、100022、100022 均 为 列表 中 键 的 
值 , 这 些 值 均 按 照 插 入 顺序 排列 ,其 中 100020 是 列表 中 的 第 一 个 字符 串 元 素 ,100021 是 列 
表 中 的 第 二 个 元 素 ,100022 是 列表 中 的 第 三 个 元 素 ,100022 是 列表 中 的 第 四 个 元 素 (也 是 尾 
部 元 素 ) 。 由 于 List 中 允许 出 现 重复 的 元 素 , 因 此 List 中 的 第 三 个 元 素 和 第 四 个 元 素 均 
为 100022。 


3. Set 
Set( 集 合 ) 由 不 重复 且 无 序 的 字符 串 元 素 组 成 的 ,其 中 ,不 重复 意味 着 一 个 集合 中 的 所 
有 字符 串 都 是 唯一 的 ,这 是 与 List 的 第 一 个 区 别 ; 无 序 意味 着 所 有 字符 串 的 读 写 是 针对 任 


意 的 位 置 的 ,而 List 中 元 素 的 读 写 必须 要 从 头 部 或 尾部 开始 操作 ,因此 ,这 是 与 List 的 第 二 
个 区 别 。Set 的 内 部 组 成 结构 如 图 7-3 所 示 。 


键 (Key) 值 (Value) 
100021 
100022 
So ee 
100020 
100023 


7-3 Set 的 内 部 结构 示意 图 


在 图 7-3 中 ,SBookid 为 集合 的 键 名 ,100021、100022、100020、100023 均 为 集合 中 键 的 
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值 。 由 于 Sec 中 不 允许 出 现 重 复 的 元 素 , 因 此 Sec 中 的 元 素 均 是 唯一 的 ,并 且 元 素 都 是 无 
序 的 。 


4. Hash 


Hash( 散 列 ) 可 以 存储 多 个 键 值 对 之 间 的 映射 ,属于 无 序 的 一 种 数据 集合 , Hash 与 字符 
串 类 似 , Hash 存储 键 的 类 型 必须 为 字符 串 , 而 值 的 类 型 既 可 以 是 字符 串 也 可 以 是 数字 ,但 
是 值 必须 是 唯一 的 ,不 可 重复 。Hash 的 键 之 间 可 以 采用 “: ”符号 隔 开 , 增 加 用 户 的 可 阅读 
性 ,并 为 用 户 提供 更 多 的 信息 。Hash 的 内 部 组 成 结构 如 图 7-4 所 示 。 


键 (Key) 值 (Value) l 

UN Bookmame L 
| Bed 0 | 
TR Ee i 
Book:price 45 : 


7-4 Hash 的 内 部 结构 示意 图 


在 图 7-4 "P," Book; name"* Book id" * Book : author" LA € “Book : price" Jy fi 91] B HEA . 
人 《格局 》”*100022””*wujun” 以 及 *45” 均 为 散 列 中 键 对 应 的 值 。 


5. Sorted Sets 

Sorted Sets( 有 序 集合 ) 和 散 列 类 似 , 主 要 区 别 是 有 序 集合 是 按照 值 进行 自动 排序 的 ,而 
散 列 中 的 值 是 不 排序 的 ;有 序 集合 可 以 直接 对 值 进行 操作 ,而 散 列 是 通过 键 来 查找 值 。 有 序 
集合 中 的 键 必 须 是 唯一 的 ,但 是 值 可 以 是 重复 的 ,而 散 列 的 值 是 唯一 的 。Sorted Sets 的 内 
部 组 成 结构 如 图 7-5 所 示 。 


键 (Key) 值 (Value) : 
Ted. 0] Wo ——— | 
ki 10022 
ki O ws | 
E TATUR MEET: STRIATE UP i 

Book:id01 100023 : 


7-5 ”Sorted Sets 的 内 部 结构 示意 图 


在 图 7-5 中 ,有 序 集合 是 按照 值 的 大 小 进行 排序 的 ,其 中 ,“Book.:id04”“Book:id02” 
“Book:id03” 以 及 “Book:id01” 为 有 序 集合 的 键 名 ,100021、100022、100023 以 及 100023 均 
为 有 序 集合 中 键 对 应 的 值 。 
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7.3 Redis 部 署 


Redis 是 一 个 


源 、 跨 平台 的 数据 库 , 因 此 Redis 数据 库 可 以 运行 在 Windows, Linux, 


Mac OS 和 BSD(Unix 的 衍生 系统 ) 等 多 个 平台 上 ,为 我 们 提供 数据 库 服务 。 不 同 的 操作 系 
统 平台 ,部署 Redis 也 会 有 所 不 同 。 本 节 将 详细 讲解 Redis 数据 库 基于 Windows 平台 和 


Linux 平台 的 部 署 。 
7.3.1 


基于 Windows 平台 


由 于 Redis 官方 不 支持 Windows 平台 ,因此 我 们 无 法 在 Redis 官网 下 载 Redis 安装 包 ， 
但 是 ,微软 开发 并 维护 了 针对 Win64 的 Windows 版 本 。 因 此 ,本 书 选 择 使 用 64 位 的 Redis 
安装 包 。 基 于 Windows 平台 的 Redis 部 署 的 具体 步骤 如 下 。 


1. 下 载 Redis 安装 包 


通过 访问 GitHub 平台 https: //github.com/microsoftarchive/redis/tags 进入 Redis 版 


本 选择 界面 ,如 图 7-6 所 示 。 


win-3.0.50; 


win-3.0.502 s 


Win-2.8.2402 s 
Gy on 21 Jun 2016 


© def0757 四 zip 四 tar 


Qon21Jun2016 © 9503e70 Dip 四 brgr 


OWatch 14k Sta 162k Fork | 161k 


Insights. 


gr E)Notes & Downloads 
z 国 Notes & Downloads 


© 100978 四 zip 四 targz 


@on21Jun2016 © 2d9ac6l 四 zp 四 targz ENotes 49 Downloads 


目 Notes 4» Downloads 


caeeafl Map Dtargz 目 Notes 


在 图 7-6 中 ,选择 要 下 载 的 Redis 版 本 ,由 于 最 新 的 win-3.2.100 没有 在 4 


7-6 Redis 版 本 选择 界面 


E 产 环境 中 进 


行 测试 ,因此 这 里 选择 的 是 win-3.0.504 版 本 , 单 击 该 版 本 下 的 Downloads 选项 ,进入 安装 


包 的 选择 界面 ,如 图 7-7 所 示 。 
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© Releases - microsoftarchive/r- X — 
€ > Œ à githubcom/MicrosoftArchive/redis/releases Hart ORNO: 


Lemes] | 3.0.504 


© win-30504 
F5] enricogior released this on 1 Jul 2016 - 2 commits to 3.0 since this release 


© 102978* 
This is a critical bug fix release for Redis on Windows 3.0. Į 
1f you are running a previous version of 3.0 in a cluster configuration you should upgrade to 3.0.504 urgently. 

The fix resolves a problem with the duster fail-over procedure. 


Compare 


This released is based on antirez/redis 3.0.5 plus Windows-specific fixes. 


See the release notes for details. 


v Assets d 
(f? Redis-x64-30.504.msi 642 MB 
(f Redis-x64-30.504.2ip. 56 MB 
D Source code (zip) 


II) Source code (tar.gz) m 


图 7-7 Redis 安装 包 的 选择 界面 


在 图 7-7 中 ,一 共有 4 个 安装 包 , 其 中 Redis-x64-3.0.504.msi X Redis 的 安装 包 ,该 安装 
包 需 要 安装 ;Redis-x64-3.0.504.zip 为 Redis 的 压缩 包 ,该 压缩 包 不 需要 安装 ,只 需要 解压 即 
可 ;Source code(zip) 为 Windows 系统 下 的 Redis 源码 包 ;Source code(tar.gz) 为 Linux 系统 
下 的 Redis 源码 包 。 这 里 我 们 选择 下 载 Redis-x64-3.0.504.zip 安装 包 。 下 载 好 的 Redis 安 
装 包 , 如 图 7-8 所 示 。 


QOO HEN , meme o) > Redis > "|| [28 Redi p 
组 织 ”包含 到 库 中 HE FBU E29 
2 zw 5 修改 日 期 aem 大 小 
mim BB Redis-x64-3.0.504zip 2020-02-251336 。 ”好 压 ZIP 压缩 文件 5,738 KB 
È tients (C) 
ca RRS (D) d 
ca xiii (E) 


7-8 下载 好 的 Redis 安装 包 


2. 解压 Redis 安装 包 


解压 图 7-8 中 的 Redis 安装 包 , 解 压 完 即 可 使 用 Redis。 解 压 后 的 Redis 如 图 7-9 
所 示 。 

从 图 7-9 中 可 以 看 出 ,解压 后 的 Redis 包含 5 个 Redis 可 执行 程序 和 一 个 核心 配置 
文件 。 下 面 , 我 们 通过 一 张 表 来 介绍 一 下 Redis 可 执行 程序 和 核心 配置 文件 ,具体 如 
表 7-1 所 示 。 
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gO- D ， 计 算 机 > AERE (D) » Redis » Redis-x64-3.0.504 v [6s] [2E Redis x64-3.0.504 P| 
组 织 ”包含 到 库 中 ”共享 ” 新建 文件 夫 =- me 
"T - ] zs a) E 
msu 图 EventLog.dil 2016-07-01 15:54 ”应 用 程序 扩展 1KB 
[21] Redis on Windows Release Notes.do.. 2016-07-01 15:52 Microsoft Wo. 13 KB 
e Redis on Windows.docx 2016-07-0115:52 Microsoft Wo. 17 KB 
司库 |] redis.windows.conf 2016-07-01 15:52 CONF 文件 43 KB 
口 redis.windows-service.conf 2016-07-01 15:52 CONF 文件 43 KB 
4 者 计算 机 f redis-benchmarkexe 2016-07-01 15:55 ”应 用 程序 397 KB 
和 本 地 磁盘 (C) 口 redis-benchmark.pdb 2016-07-01 15:55 PDB 文件 4,268 KB 
b cca 本 地 磁盘 (D:) [Œ] redis-check-aof.exe 2016-07-0115:55 ”应 用 程序 251 KB z 
P ca 本 地 磁盘 (E:) |] redis-check-aof.pdb 2016-07-0115:55  PDB 文件 3,436 KB 
a redis-check-dump.exe 2016-07-0115:55 ”应 用 程序 262 KB 
时 网 络 | redis-check-dump.pdb 2016-07-01 15:55  PDB 文件 3,404 KB 
E redi 2016-07-01 15:55 应 用 程序 471 KB 
LJ redis-t 2016-07-0115:55 ”PDB 文件 4412 KB 
国 ] redis-server.exe 2016-07-01 15:55 ”应 用 程序 1517 KB 
|] redis-server.pdb 2016-07-0115:55 PDB R 6,748 KB 
E) Windows Service Documentation.docx 2016-07-01 9:17 Microsoft Wo. 14 KB 3 
) 164392 
图 7-9 解压 后 的 Redis 
表 7-1 Redis 可 执行 程序 和 核心 配置 文件 
可 执行 程序 /核心 配置 文件 相关 说 明 
redis. windows.conf Redis 核心 配置 文件 
redis-benchmark.exe Redis 的 性 能 测试 工具 
redis-check-aof.exe Redis 修复 AOF 文件 的 工具 
redis-check-dump.exe Redis 检测 RDB 文件 (快照 持久 化 文件 ) 的 工具 
redis-cli.exe Redis 命令 行 客户 端 
redis-server.exe Redis 服务 器 启动 命令 


3. 启动 Redis 服务 


在 Redis 目录 下 打开 命令 行 窗 口 , 即 进入 Redis 目录 ,在 目录 栏 中 输入 cmd 提示 符 , 并 
按 一 下 键盘 的 Enter 键 , 在 当前 路 径 下 打开 命令 行 窗 口 , 如 图 7-10 所 示 。 


Eri 管理 员 : CAWindowsVSystem32Vcmd.exe cis 


Microsoft Windows [)RÆ® 6.1.7601] 


<c) 2889 Microsoft Corporation, [f 


D: NRedis NRedis-x64-3.8.5845,, 


710 ”命令 行 窗口 


第 7 章 键 值 对 存储 数据 库 Redis 


在 图 7-10 中 ,执行 redis-server.exe redis.windows.conf 命令 ,启动 Redis 服务 ,若是 命 
令 行 窗口 出 现 端口 号 为 6379, 则 说 明 Redis 服务 启动 成 功 , 反 之 失败 ,具体 效果 如 图 7-11 
所 示 。 


国 管理 员 : C\Windows\System32\cmd.exe - redis-server.exe redis.windows.conf 


Redis 3-9.594 (88808088/0) 64 bit 


tandalone node 


http://redis.io 


3 .90.584 
ept connections on po 


图 7-11 启动 Redis 服务 的 效果 


从 图 7-11 中 可 以 看 出 ,命令 行 窗口 出 现 了 6379 的 端口 号 ,由 于 Redis 服务 默认 监听 的 
端口 号 为 6379, 因 此 说 明 我 们 成 功 启动 Redis 服务 。 若 是 想 要 关闭 Redis 服务 ,只 需要 关闭 
命令 行 窗口 即 可 


启动 Redis 客户 端 


在 Redis 目录 下 打开 另 一 个 命令 行 窗 口 ,执行 redis-cli.exe -h 127.0.0.1 -p 6379 命令 ， 
启动 Redis 客户 端 并 连接 Redis 服务 ,如 图 7-12 所 示 


ITUUINUUUTESDESCEWTZITE 
t É 2089 Microsoft Corporation 


8.594»redis-cli.exe 127.8.8.1 -p 6379 


4 ". + 


国 管理 员 : CMWindows\System32\cmd.exe - redis-cliexe -h 127.0.0.1 -p 6379 ej 


图 7-12 启动 Redis 客户 端 并 连接 Redis 服务 的 效果 


从 图 7-12 中 可 以 看 出 ,执行 命令 后 ,命令 行 窗 口 没 有 出 现任 何 报错 信息 ,说 明 我 们 成 功 
启动 Redis 客户 端 并 连接 到 Redis 服务 。 


7.3.2 基于 Linux 平台 
由 于 root 用 户 拥有 的 权限 很 大 .出 于 系统 安全 的 考虑 ,需要 新 建 一 个 普通 用 户 操作 
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Redis 数据 库 , 因 此 在 基于 Linux 平 台 部 署 Redis 之 前 ,需要 新 建 一 个 用 户 user_redis ,并 进 
行 授权 操作 。 本 书 是 在 服务 器 nosql01 上 部 署 的 Redis 数据 库 , 关 于 用 户 user. redis 的 新 
建 , 授 权 、 切 换 操作 可 参考 3.1.2 节 内 容 。 

接 下 来 ,我 们 将 详细 讲解 如 何 基 于 Linux 平台 部 署 Redis, 具 体 部 署 步骤 如 下 。 


1. 下 载 Redis 安装 包 


通过 访问 Redis 官网 https://redis.io/ 进 入 Redis 下 载 页 面 ,如 图 7-13 所 示 。 


p 2/0] Xx 
@ Redis x G 


€ > Œ à redisio wart ORN O 


Redis is an open source (BSD licensed), in-memory data structure store, used as a database, | 
cache and message broker. It supports data structures such as strings, hashes, lists, sets, 

sorted sets with range queries, bitmaps, hyperloglogs, geospatial indexes with radius | 
queries and streams. Redis has built-in replication, Lua scripting, LRU eviction, transactions 

and different levels of on-disk persistence, and provides high availability via Redis Sentinel 

and automatic partitioning with Redis Cluster. Learn more — 


Try it Download it Quick links 
Ready for a test drive? Check this Redis 5.0.7 is the latest stable version. Follow day-to-day Redis on Twitter 
interactive tutorial that will walk you Interested in release candidates or and GitHub. Get help or help others 
through the most important features unstable versions? Check the by subscribing to our mailing list, we 
of Redis downloads page. are 5,000 and counting! 
L 4 


A 7-13 Redis 官网 下 载 页 面 


在 图 7-13 中 , 单 击 Redis 5.0.7 is the latest stable version. F $ Redis 最 新 稳定 版 本 , 即 
Redis 5.0.7。 下 载 好 的 Redis 安装 包 如 图 7-14 Bron o 


GO HAN > ARO) » Redis ， Tr] [ t Reis 


组 织 ” gaaer- 共享 ” 8x 


名 称 修改 日 期 


usn Ji Redis-x64-3.0.504 2020-02-25 14:33 dax 

& teme C) [3 2020-02-24 10:38 EGZ ERX — 1938KB 
ca 本 地 磁盘 (D:) d BB Redis-x64-3.0.504 zip. 2020-02-25 13:36 ”好 压 ZIP ERS 5,738 KB. 
ca PE (E) 


7-14 ”下载 好 的 Redis 安装 包 


2. 解压 Redis 安装 包 


下 载 完 Redis 安装 包 后 ,将 通过 SecureCRT 工具 将 Redis 安装 包 上 传 至 Linux 平台 的 
/opt/software/ 目录 下 。 首 先 在 /opt/software/ 目 录 下 执行 sudo rz 上 传 文件 命令 ,弹出 
Select Files to Send using Zmodem 对 话 框 ,然后 选择 要 上 传 的 Redis 安装 包 , 单 击 Add TE 
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钮 ,将 其 添加 至 “Files to send” 文 件 框 中 ,最 后 单 击 OK 按钮 ,将 Redis 安装 包 上 传 至 /opt/ 


software/ 目 录 下 ,如 图 7-15 所 示 。 


192.168.121.134 - SecureCRT 


leks 


下 


rz waiting to receive. 
Starting zmodem transfer. Press Ctrl+C to cancel. 


Transferring redis-5.0.7.tar.gz... 
37 KB 1937 KB/sec 00:00:01 0 Errors 


[user redis&nosql01 software]$ 11 
total 115184 


-rw-r--r-- 1 root 
[user redis&nosql01 software] [| 


Ready ssh2: AES-256-CTR. 11 32 11 Rows, 95 Cols VT100 


-rrr 1 user_mongo user.mongo 115960131 Jan 9 16:31 mo inux-x86 64-rhe170-4.2.2.tgz 
1984203 Feb 24 10:38 [redis-5.0.7.tar.gz| 


CAP NUM 


7-15 ”上传 到 Linux 平台 的 Redis 安装 包 


在 图 7-15 中 , 先 将 Redis 安装 包 的 用 户 和 用 户 组 权限 修改 为 user_redis; 然 后 将 /opt/ 
servers/ 目录 下 redis_demo 文件 夹 的 用 户 和 用 户 组 权限 修改 为 user_redis; 最 后 解压 Redis 


安装 包 至 /opt/servers/redis_demo 目录 ,具体 命令 如 下 : 


# 修 改 Redis 安装 包 的 用 户 和 用 户 组 权限 

$sudo chown -R user redis:user redis redis-5.0.7.tar.gz 

HER redis demo 文件 夹 的 用 户 和 用 户 组 权限 

$sudo chown -R user redis:user redis /opt/servers/redis demo/ 


# 解压 安装 包 
$tar -zxvf redis-5.0.7.tar.gz -C /opt/servers/redis demo/ 


执行 上 述 命令 ,解压 完 Redis KE JA 3E A Sl /opt/servers/redis demo 目录 。 如 果 觉 


得 解压 后 的 文件 名 过 长 ,可 以 对 文件 进行 重 命名 ,具体 命令 如 下 : 


# 重 命名 为 redis 解压 包 
Smv redis-5.0.7/ redis 


执行 上 述 命令 ,查看 重 命名 后 的 Redis 安装 包 , 如 图 7-16 Bros 


f, 
| 192.168.121.134 - SecureCRT 


lp 


jac 3 $3 X]. Enter host <Alt+R> 232 0 dà 2954 x il 


drwxrwxr-x 6 user redis user redis 4096 Nov 20 01:05 redis-5.0.7 
[user redis&nosql01 redis demo]$| d 0.7/ redis | 
[user redis&nosqlO0l redis demo]$ 


total 4 
drwxrwxr-x 6 user redis user redis 4096 Nov 20 01:05 [redis] 


[user redis&nosql01 redis demo]$ 


Ready ssh2: AES-256-CTR. 8, 34 8 Rows, 81 Cols VT100 


CAP NUM 


图 7-16 重 命名 后 的 Redis 安装 包 
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3. 编译 Redis 解压 包 的 文件 


进入 redis 文件 夹 ,执行 make 命令 ,编译 Redis 文件 夹 的 文件 ,具体 如 图 7-17 所 示 。 


192168121134 - SecureCRT [E77 


Fle Edit View Options Transfer Script Tools Window Help 


7192168121134 x 4 


Js S £a XD. enter host Ate SCC TENE i 


» 


[Tuser redisénosqT0l redis]$ make 
cd src && make all 
make[1]: Entering directory '/opt/servers/redis. demo/redis/src* 
CC Makefile- dep 
wake :Leaving directory '/opt/servers/redis deno/redis/src" 
make[1]: Entering directory '/opt/servers/redis. demo/redis/src' 
rm -rf redis-server redis-sentinel redis-cli redis-benchmark redis-check-rdb redi 
s-check-aof *.0 *.gcda *.gcno *.gcov redis. info lcov-html Makefile.dep dict-bench 


k 
(cc ../deps && make distclean) 
Entering directory opt/sar vers /cadis.) demo/redis/deps * 
cc hiredis && make clean) » /dev/nul 

cc linenoise && make clean) » /dev/null m true 

cc lua && make clean) > /dev/null || tru 

cc dess Toc 5 [ -f Makefile ] && make d'istclean) » /dev/null || true 

rm -f .make- 
Imake[2] : Leaving directory '/opt/servers/redis. demo/redis/deps" 
(rm -f .make-*) 
echo STD--std-c99 -pedantic -DREDIS STATI 
echo WARN--Wall -W -&no-missing-field-ini 
echo OPT--02 >> .make-settings 
echo MALLOC-jemalloc >> .make-settings 
echo CFLAGS= >> .make-settings 
echo LDFLAGS- >> .make-settings 
echo REDIS CFLAGS- >> .make-settings 
echo REDIS LDFLAGS- »» .make-settings 
ecko PREV. FINAL CFLAGS--std-c99 -pe. antic -DREDIS STATIC 
-field-initializers -02 -g -ggdb ;(deps /hiredis 
s/lua/src -DUSE JEMA.LOC -I dens /jas 
echo PREV.FINALLDFLAGS- .-q -qqdb -rdynamic >> .make-settinqs 
(cc ../deps && make niredis linenoise lua jemalloc 
pakej]: Entering directory "apt /servers/redis. demo/redis/deps' 

cc hiredis && make clean) > /dev/nul! || true 

cc linenoise && make clean) > /dev/null || true 

cc lua && make clean) » /dev/null || true 

CC ed s [ -f Makefile ] && make distclean) > /dev/null || true 

rm = 
> .make-cflags) 
echo "" > .make-ldflags) 
MAKE hiredis 
cd hiredis && make static 
make[3]: Entering directory -/opt/servers/redis.deno/redis /deps/hiredis 

99 -pedantic -c -03 -fpIC -Wall -w -Wstrict-prototypes -Wwrite-strings 


>> .make-settings 
lizers >> .make-settings 


* -Wall -w -Wno-missing 
/deps/linenoise -1. ./dep 
1oc/include >> .make-settings 


: execvp: gcc: Permission 

: *** [net.o] Error 127 
Leaving directory "/opt/servers/redis. deno/redis/deps/hiredis* 

3** [hiredis] Error 2 

Leaving directory '/opt/servers/redis. demo/redis/deps" 

i [nersist-settings] Error 2 Conored) 

ist.o 

cc: command not found 

o] Error 127 

rectory '/opt/servers/redis. demo/redis/src" 

all] Error 2 

user-redisUnosqTUI redis. 


fente 


Ready ssn2: AES-256-CTR — 56, 29 56 Rows, 119 Cos VT100 CAP NUM 


图 7-17 编译 redis 文件 夹 的 文件 


从 图 7-17 的 返回 结果 可 以 看 出 ,gcc(GNU C 语言 编译 器 ) 工 具 未 找到 ,因此 需 


192.168.121.134 - SecureCRT 
File Edit View Options Transfer Script Tools Window Help 


p. ited: 
fbe xke G4 0:2.17-307. 017.1 glibc-common. x86 64 0:2.17-307.e17.1 
ibgonp.x86 64 0:4.8.5-39.el7 


user-redisénosql0l redis]$ 


Ready ssh2: AES-256-CTR. 6, 29 6Rows, 78 Cols VT100 CAP NUM 


7-18 安装 gce 工具 


要 执行 


sudo yum install gcc 命令 ,并 输入 密码 123456 ,安装 gcc, WE 7-18 所 示 ( 部 分 返回 信息 ) 。 
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从 图 7-18 的 返回 结果 “Complete!1” 可 以 看 出 ,gcc 工具 安装 成 功 。 执 行 make distclean 
命令 清除 执行 make 命令 时 生成 的 配置 文件 ;然后 再 执行 make 命令 编译 Redis 文件 夹 的 文 
件 ,具体 如 图 7-19 所 示 。 


192.168.121.134 - SecureCRT 


SR Wiedow Help 
zz 3) 2.3 2. Enter host <Alt+R> Sx 


Es redis- benchnark. o 
LINK redis-benchmark 
INSTALL redis-check-rdb 
INSTALL redis-check-aof 


Hint: It's a good idea to run "make test' ;) 


make[1]: Leaving directory "/opt/servers/redis. demo/redis/src" 
[user redis&nosql101 Fedis]s sa 


Ready ssh2: AES-256-CTR 13, 29 13 Rows, 94 Cols VT100 CAP NUM 


7-19 ”编译 redis 文件 夹 的 文件 
从 图 7-19 的 返回 结果 “Hint: It's a good idea to run ‘make test” 可 以 看 出 ,redis 文件 夹 
的 文件 均 编译 成 功 。 
4. 安装 Redis 


在 redis 文件 夹 下 ,执行 sudo make install 命令 ,安装 Redis, 如 图 7-20 所 示 。 
ene) 


图 192.168.121.134 - SecureCRT 
E e eo o ea e 


1 
sudo] password for user. redis: 
cd src && make install 
make[1]: Entering directory "/opt/servers/redis demo/redis/src' 


Hint: It's a good idea to run 'make test' ;) 


INSTALL install 


make[1]: Leaving directory '/opt/servers/redis demo/redis/src' 
[user redisénosql01 redi Ys 


Ready ssh2: AES-256-CTR 14, 29 14 Rows, 91 Cols VT100 CAP NUM 


7-20 安装 Redis 


从 图 7-20 中 可 以 看 出 ,已 经 完成 了 Redis 的 安装 。 由 于 Redis 默认 安装 在 /usr/local/ 
bin/ 目 录 下 .因此 我 们 可 以 进入 访 目录 来 查看 Redis 是 否 安装 成 功 ,然后 执行 sudo chown - 
R user redis: user redis /usr/local/bin/ 命 令 , 并 输入 密码 123456 ,修改 文件 夹 bin 目录 下 
文件 的 权限 ,再 执行 1 命令 ,查看 /usr/local/bin/ 目 录 下 文件 的 权限 是 否 变 为 user. redis. lil 


图 7-21 所 示 。 
从 图 7-21 中 可 以 看 出 ,/usr/local/bin/ 目 录 下 的 所 有 文件 的 权限 均 变 为 user_redis ,并 
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192.168.121.134 - SecureCRT elaks 


T m o Ee eo Ene 
Enter host <Alt+R> 


| 192168.121134 x 
user redisánosql01 bin]$ sudo chown -R user redis:user redis /usr/local/bin/ 


[sudo] password for user redis: 
user redisénosql0l bin]$ 11 

total 32788 

-rwxr-xr-x 1 user redis user redis 4367679 Apr 29 01:59 redis-benchmark 

-rwxr-xr-x 1 user redis user redis 8127326 Apr 29 01:59 redis-check-aof 

-rwxr-xr-x 1 user redis user redis 8127326 Apr 29 01:59 redis-check-rdb 

-rwxr-xr-x 1 user redis user redis Ene: pa 29 01:59 redis-cli 

lrwxrwxrwx 1 user redis user redis r 29 01:59 redis-sentinel -> redis-server 
-rwxr-xr-x l user redis user redis 8127326 Abr 29 01:59 redis-server 
[user_redis@nosql01 bin]$ 


ssh2: AES-256-CTR VT100 


11, 27 11 Rows, 91 Cols 


图 7-21 查看 /usr/local/bin 目录 下 文件 的 权限 


该 目录 下 存在 Redis 的 相关 操作 命令 ,因此 说 明 Redis 安装 成 功 。 
启动 Redis 服务 


启动 Redis 服务 共有 两 种 不 同 的 方式 , 即 直 接 启动 Redis 服务 和 使 用 配置 文件 启 
Redis 服务 。 

CD 直接 启动 Redis 服务 。 

在 /usr/local/bin 目录 下 ,执行 redis-server 命令 ,启动 Redis 服务 ,若是 Redis 服务 端 窗 
口 出 现 端口 号 为 6379, 则 说 明 Redis 服务 启动 成 功 ,反之 失败 ,效果 如 图 7-22 所 示 。 


团 192.168.121.134 - SecureCRT 
Fle Edit View Options Transfer Scip Tools Window Help 


Enter host «AlteR» 


1t-00000000, modified-0, pid-6937, just started 
e'Speciried, using the default config. in ordir to specify 


[5r M 29 Apr 2020 02:11:06.629 # Current maximum open files is 4096. clot has been reduced to 4064 to compen 
sate for low ulimit. If you need higher maxclients increase 'ulimit -n' 


Redis 5.0.7 (00000000/0) 64 bit 
Running in standalone mode 


PID: 6937 


http://redis. io 


6937: 29 Apr 2020 02:11:06.630 # WARNING: The TCP backlog setting of 511 cannot be enforced because /proc/sys/net/ 

core/somaxconn is set to the lower value oi 

29 Apr 2020 02:11:06.630 f Server Fhitiaiized 

29 Apr 2020 02:11:06.630 # WARNING overcommit memory is set to O! Background save may fail under low memory 

condition. To fix this issue add 'vm.overcommit memory = 1' to /etc/sysctl.conf and then reboot or run the command 
ct] vm.overcommit memory-l' for this to take effect. 

E :M 29 Apr 2020 02:11:06.630 # WARNING you have Transparent Huge Pages (THP) support enabled in your kernel. Thi 

s will create latency and memory usage issues with Redis. To fix this issue run the command 'echo never > /sys/kern| 

el/mm/transparent hugepage/enabled' as root, and add it to your /etc/rc.local in order to retain the setting after 

a reboot. Redis must be restarted after THP is disabled. 

6937:M 29 Apr 2020 02:11:06.631 * DB loaded from disk: 0.000 seconds 

6937:M 29 Apr 2020 02:11:06.631 * Ready to accept connections 


Ready ssh2: AES-256-CTR — 4l 1 41Rows,115Cols VT100 CAP NUM 


7-2 ”启动 Redis 服务 
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从 图 7-22 中 可 以 看 出 ,Redis 服务 端 窗口 出 现 了 6379 的 端口 号 ,由 于 Redis 服务 默认 
监听 的 端口 号 为 6379 ,因此 说 明 我 们 成 功 启 动 Redis 服务 。 若 是 想 要 关闭 Redis 服务 ,只 需 
要 通过 组 合 键 Ctrl 十 C 关闭 Redis 服务 即 可 。 

(2) 使 用 配置 文件 启动 Redis 服务 。 

使 用 配置 文件 启动 Redis 服务 之 前 ,需要 修改 /redis/ 目 录 下 的 Redis 核心 配置 文件 
redis.conf ,修改 参数 daemonize 的 值 ,将 no 改 为 yes, 指 定 以 守护 进程 方式 后 台 运 行 Redis 
服务 ,具体 如 图 7-23 所 示 。 


Egi 192.168.121.134 - SecureCRT [e[g| x 
OY EST Widow Hp 


Enter host <Alt+R> 


L4 By derah Redis does not run as a daemon. Use 'yes' if you need it. 
Redis will write a pid file in /var/run/redis.pid when daemonized. 


# supervised no - no supervision interaction 
# supervised upstart - signal upstart by putting Redis into SIGSTOP mode 
# supervised systemd - signal systemd by writing READY=1 to $NOTIFY_SOCKET 
# supervised auto - detect upstart or syst method based on 
s UPSTART.. rA or NOTIFY-SOCKET environment variables 
H Note: these supervision methods only signal "process is ready." 

They do not enable continuous liveness pings back to your supervisor. 
Bupervised no 


ssh2: AES-256-CTR. 16, 1 17 Rows, 106 Cols VT100 CAP NUM 


图 7-23 修改 配置 文件 redis.conf 


在 图 7-23 中 ,修改 完 配 置 文件 redis. conf 后 ,在 redis 目录 下 执行 redis-server /opt/ 
servers/redis demo/redis/redis.conf 命令 ,启动 Redis 服务 ,并 通过 执行 ps -ef | grep redis 
SEA Redis 服务 是 否 启动 成 功 ,效果 如 图 7-24 所 示 。 


] 192.168.121.134 - SecureCRT eE) 


[fe di Vav Opens Tarer iip Tek Wido Wap 


Enter host <Alt+R> 


redis-server 
6980:C 29. Apr; E 20. 02: 149: 07.896 & Redis is starting 


0000000000000 
6980:C 29 Apr 2020 02:49:07.896 # Redis version-5.0.7, bits-64, commit-00000000, modified-0, pid-6980, 
just started 


6980:C 29 por 2020 02:49:07.896 # Configuration loaded 
[user_redis@nosql01 redis]$ ps -ef|grep redis 
7 :04 pts 0 00:00:00 su user. redis 
00:00:00 redis-server 127.0.0.1:6379 


isercrer 986 2308 0 pts/0 ^ 00:00:00 grep --color-auto redis 
[user redisénosql0l redis] 


Ready ssh2: AES-256-CTR. 10, 29 10 Rows, 102 Cols VT100 CAP NUM 


图 7-24 启动 Redis 服务 


在 图 7-24 中 ,Redis 进程 中 出 现 了 redis-server 127.0.0.1: 6379 进程 ,说 明 Redis 服务 
启动 成 功 。 若 要 关闭 Redis 服务 , 则 执行 kill -2 6981 命令 关闭 Redis 服务 ,其 中 6981 为 
Redis 服务 运行 的 进程 号 ;也 可 以 在 Redis 客户 端 执行 shutdown 命令 ,关闭 Redis 服务 ;还 
可 以 通过 执行 redis-cli shutdown 命令 .关闭 Redis 服务 。 
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启动 Redis 客户 端 
通过 执行 redis-cli 命令 ,启动 并 进入 Redis 客户 端 ,如 图 7-25 所 示 。 


图 192.168.121.134 - SecureCRT 
Demreugvienictonei Transfer. Senpt: Tools: Widow. Help 


Tuser- redisiinasqTuT redis]$ ps -ef [grep redis 
t ai s 01:04 pts/0 00:00:00 su user_redis 
:00 redis-server 127.0.0.1:6379 


6961 0 02:49 ? 00:00: 
6986 2308 0 02: 43. pts/0 00:00:00 grep --color-auto redis 
[user redis&nosql01 redis]$[redis-cTi] 
127.0.0.1:6379- ll 


ssh2: AES-256-CTR. 6, 17 6Rows, 92 Cols VT100 


图 7-25 启动 Redis 客户 端 


从 图 7-25 中 可 以 看 出 ,Redis 客户 端 已 经 启动 成 功 , 若 想 要 关闭 Redis 客户 端 , 则 执行 
quit 命令 退出 即 可 ,也 可 以 通过 组 合 键 Ctrl+C 强制 关闭 Redis 客户 端 。 在 Redis 客户 端 中 
通过 执行 ping 命令 ,测试 Redis 客户 端 与 Redis 服务 是 否 连接 成 功 , 若 是 连接 成 功 则 返回 
PONG ,如 图 7-26 Bros 。 


Eg) 192.168.121.134 - SecureCRT oja] 
File Edit View Options Transfer EE Tools Window Help 


user redisGnosql0l redis 
127.0.0.1:6379» ping 
PONG 

127.0.0.1:6379» 


Ready ssh2: AES-256-CTR 6, 17 6Rows, 92 Cols CAP NUM 


A 7-26 测试 Redis 客户 端 与 Redis 服务 是 否 连 接 成 功 


从 图 7-26 中 可 以 看 出 ,执行 ping 命令 ,返回 PONG, 因 此 说 明 Redis 客户 端 与 Redis 服 
务 连接 成 功 。 


7.4 ”使 用 redis-cli 操作 Redis 


redis-cli 是 原生 Redis 自 带 的 命令 行 工具 ,可 以 帮助 我 们 通过 简单 的 命令 连接 Redis 服 
F ,并 进行 数据 管理 , 即 Redis 键 (key) 和 Redis 数据 结构 的 管理 。 本 节 将 详细 讲解 使 用 
redis-cli 操作 Redis 键 和 Redis 常见 的 5 种 数据 结构 。 


7.4.1 操作 键 


Redis 键 操作 是 Redis 数据 库 中 非常 重要 和 常用 的 操作 。 下 面 通过 一 张 表 来 介绍 一 
常用 的 Redis 键 操作 命令 及 相关 说 明 , 具 体 如 表 7-2 所 示 。 
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表 7-2 常用 的 Redis 键 操作 命令 及 相关 说 明 


操作 命令 相关 说 明 

SET 为 指定 键 设置 值 

MSET 为 多 个 键 设置 值 

KEYS 查找 所 有 符合 给 定 模式 pattern( 正 则 表达 式 ) 的 键 
GET 获取 指定 键 的 值 

MGET 获取 多 个 键 的 对 应 值 

DUMP 序列 化 指定 的 键 ,并 返回 被 序列 化 的 值 
EXISTS 判断 指定 键 是 否 存 在 

TYPE 查看 指定 键 的 类 型 

RENAME 删除 指定 键 的 值 

EXPIRE 设置 指定 键 的 生存 时 间 ,以 秒 计 

TTL 返回 指定 键 的 剩余 生存 时 间 

PERSIST 移 除 键 的 生存 时 间 

DEL 在 键 存在 时 ,删除 key 


ER 7-2 中 ,我 们 列举 了 13 个 常用 的 Redis 键 操作 命令 。 下 面 , 我 们 结合 具体 的 示例 
对 这 些 命令 进行 详细 讲解 。 


1. SET 命令 
使 用 SET 命令 为 指定 键 设 置 值 ,具体 语法 如 下 : 


SET key value 


上 述 语法 中 ,SET 是 为 指定 键 设置 值 的 命令 ,若是 所 指定 的 键 不 存在 , 则 创建 键 ,否则 
进行 覆盖 操作 s key 表示 键 ;value 表示 为 指定 键 设置 的 值 。 
下 面 ,我 们 演示 为 键 company 指定 值 itcast, 具 体 如 下 : 


127.0.0.1:6379» set company itcast 
OK 


从 上 述 返回 结果 OK 可 以 看 出 ,我 们 成 功 为 键 company 指定 值 itcast。 
2. MSET 命令 


使 用 MSET 命令 为 多 个 键 设置 值 ,具体 语法 如 下 : 


MSET keyl valuel key2 value2 ... keyN valueN 


上 述 语 法 中 ,MSET 是 为 多 个 键 设置 值 的 命令 , 若 键 不 存在 , 则 创建 键 ,否则 进行 覆盖 
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操作 ; keyl. key2, 777 、keyN 表示 键 ; valuel value2、…… .valueN 表示 要 为 对 应 键 设置 
的 值 。 

下 面 ,我 们 演示 为 键 brandl 设置 值 heima、 键 brand2 设置 值 chuanzhihui、 键 brand3 设 
置 值 kudingyu、 键 brand4 设置 值 boxuegu、 键 brand5 设置 值 czzxxy、 键 brand6 设置 值 
yuanxiaobang, 具 体 如 下 : 


从 上 述 返 回 结 果 OK 可 以 看 出 ,我 们 成 功 为 键 brandl brand2 brand3, brand4 , brand5 
和 brand6 分 别 指定 值 。 


3. KEYS 命令 


使 用 KEYS 命令 查找 所 有 符合 给 定 模式 pattern( 正 则 表达 式 ) 的 键 ,具体 语法 如 下 : 


上 述 语 法 中 , KEYS 是 查找 所 有 符合 给 定 模式 pattern (正则 表达 式 ) 键 的 命令 ; 
PATTERN 是 模式 ,也 可 以 为 正则 表达 式 。 
下 面 ,我 们 演示 查找 所 有 键 ,具体 如 下 : 


从 上 述 返 回 结 果 可 以 看 出 ,一 共有 7 个 键 ,其 中 键 company 是 执行 SET 命令 创建 的 ， 
键 brandl、brand2、brand3、brand4、brand5、brand6 是 执行 MSET 命令 创建 。 


4. GET 命令 
使 用 GET 命令 获取 指定 键 的 值 ,具体 语法 如 下 : 


上 述 语 法 中 ,GET 是 用 于 获取 指定 键 的 值 的 命令 ;key 表示 键 。 
下 面 ,我 们 演示 获取 键 company 的 值 ,具体 如 下 : 
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从 上 述 返回 结果 "itcast" 可 以 看 出 , 键 company 的 值 为 itcast, 说 明 我 们 成 功 获 取 键 
company 的 值 。 


5. MGET 命令 


使 用 MGET 命令 获取 多 个 键 的 对 应 值 ,具体 语法 如 下 : 


上 述 语法 中 ,MGET 是 用 于 获取 指定 多 个 键 的 值 的 命令 ;keyl .key2 ... 表 示 多 个 键 。 
下 面 ,我 们 演示 获取 键 brandl .brand2 .brand3 以 及 brand 的 值 ,具体 如 下 : 


从 上 述 返回 结果 可 以 看 出 , 键 brandl、brand2 以 及 brand3 的 值 分 别 为 heima, 
chuanzhihui 及 kudingyu. ifijftt brand 的 值 为 nil, 这 是 因为 键 brand 并 不 存在 ,因此 返回 特 
殊 值 nil。 


6. DUMP 命令 


使 用 DUMP 命令 序列 化 指定 的 键 ,并 返回 被 序列 化 的 值 ,具体 语法 如 下 : 


上 述 语法 中 ,DUMP 是 用 于 序列 化 指定 的 键 并 返回 被 序列 化 的 值 的 命令 ;key 表示 键 。 
下 面 ,我们 演示 序列 化 键 company, 并 返回 被 序列 化 的 值 ,具体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 , 键 company 已 经 被 序列 化 ,并 且 被 序列 化 的 值 为 “\x00\ 
x06itcastMNx00V x05 x99 xObuVx97N x8d V xd4Nxcl" 


7. EXISTS 命令 
使 用 EXISTS 命令 判断 指定 键 是 否 存在 ,具体 语法 如 下 : 


上 述 语法 中 ,EXISTS 是 用 于 判断 指定 键 是 否 存在 的 命令 ;key 表示 键 。 
下 面 ,我 们 演示 判断 键 brand6 和 brand? 是 否 存在 , 若 存在 , 则 返回 1, 反 之 返回 0, 具 体 
F: 


E 
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从 上 述 返 回 结果 可 以 看 出 , 键 brand6 存在 ,而 键 brand? 不 存在 。 
8. TYPE 命令 
使 用 TYPE 命令 查看 指定 键 的 类 型 ,具体 语法 如 下 : 


上 述 语法 中 ,TYPE 是 用 于 查看 指定 键 的 类 型 的 命令 key 表示 键 。 
下 面 ,我 们 演示 查看 键 company 的 类 型 ,具体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 , 键 company 的 类 型 为 string 类 型 。 
9. RENAME 命令 
使 用 RENAME 命令 修改 指定 键 的 名 称 , 具 体 语法 如 下 : 


上 述 语法 中 ,RENAME 是 用 于 修改 指定 键 名 称 的 命令 ;key 表示 旧 键 ;newkey 表示 
键 。 

下 面 ,我 们 演示 将 键 company WH newcompany, 并 执行 “keys * ”命令 ,查看 键 是 否 被 
修改 成 功 ,具体 如 下 : 


E 


从 上 述 返 回 结果 可 以 看 出 , 键 company 已 经 更 改 为 newcompany。 


10. EXPIRE 命令 
使 用 EXPIRE 命令 设置 键 的 生存 时 间 ,具体 语法 如 下 : 
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上 述 语法 中 , EXPIRE 是 用 于 设置 指定 键 生存 时 间 的 命令 ;key 表示 键 ;seconds 表示 设 
置 的 时 间 ,以 秒 计 。 
下 面 ,我 们 演示 将 键 brand6 的 生存 时 间 设 置 为 30s( 秒 ) ,具体 如 下 : 


从 上 述 返 回 结果 “1” 可 以 看 出 , 键 brand6 的 生存 时 间 已 经 成 功 设置 为 30s, 即 30s 后 该 
键 会 消失 。 读 者 这 里 可 以 设置 较 长 的 时 间 ,便于 后 续 演 示 TTL 命令 和 PERSIST 命令 。 


11. TTL 命令 
使 用 TTL 命令 查看 指定 键 的 剩余 过 期 时 间 ,具体 语法 如 下 : 


上 述 语法 中 ,TTL 是 用 于 查看 指定 键 剩余 过 期 时 间 的 命令 ;key 表示 键 。 
下 面 ,我 们 演示 查看 键 brand6 的 剩余 过 期 时 间 ,具体 如 下 : 


从 上 述 返 回 结果 *25” 可 以 看 出 , 键 brand6 的 剩余 生存 时 间 为 25s。 若 是 键 brande 不 存 
在 ( 即 过 期 ) 则 返回 “一 2”, 执 行 keys * 命令 ,我 们 会 发 现 键 brand6 已 经 不 存在 了 。 


12. PERSIST 命令 


使 用 PERSIST 命令 移 除 指定 键 的 生存 时 间 , 即 将 键 从 带 生存 时 间 的 状态 转换 为 持久 
存在 的 状态 ,具体 语法 如 下 : 


上 述 语法 中 ,PERSIST 是 用 于 移 除 指定 键 的 生存 时 间 的 命令 ;key 表示 键 。 
下 面 , 我 们 演示 移 除 键 brand6 的 生存 时 间 , 具 体 如 下 : 


从 上 述 返 回 结 果 “1” 可 以 看 出 , 键 brand6 的 生存 时 间 已 被 成 功 移 除 。 
13. DEL 命令 
使 用 DEL 命令 删除 指定 键 , 具 体 语法 如 下 : 
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DEL key 


上 述 语法 中 ,DEL 是 用 于 删除 指定 键 的 命令 ;key 表示 键 。 

下 面 ,我们 演示 删除 键 brand6 ,并 执行 keys * 命令 ,查看 键 brand6 是 否 还 存在 (注意 ， 
车 前 面 键 brand6 设置 的 生存 时 间 较 短 的 话 ,未 执行 删除 操作 ,该 键 就 已 经 不 存在 了 ) ,具体 
如 下 : 


127.0.0.1:6379>del brand6 
(integer) 1 
127.0.0.1:6379>keys * 

1) "brand2" 

2) "brand5" 

3) "brand3" 

4) "brand4" 

5) "newcompany" 

6) "brandl" 


从 上 述 返回 结果 可 以 看 出 , 键 brand6 已 经 被 成 功 删 除 。 


742 操作 字符 串 


String 字符 串 是 Redis 中 最 基本 也 是 最 简单 的 数据 结构 ,Redis 为 String 字符 串 提 供 了 
相关 操作 命令 。 下 面 ,通过 一 张 表 来 介绍 常用 的 String 操作 命令 及 相关 说 明 ,具体 如 表 7-3 


所 示 。 
表 7-3 Redis 常用 的 String 字符 串 操作 命令 及 相关 说 明 

操作 命令 相关 说 明 
SET 为 指定 字符 串 键 设置 值 
MSET 为 多 个 字符 串 键 设置 值 
GET 获取 指定 字符 串 key 中 的 值 
MGET 获取 多 个 字符 串 键 的 对 应 值 
GETSET 获取 指定 字符 串 键 的 旧 值 并 设置 新 值 
STRLEN 获取 字符 串 值 的 字 节 长 度 
GETRANGE 获取 字符 串 键 指定 索引 范围 的 值 内 容 
SETRANGE 为 字符 串 键 的 指定 索引 位 置 设置 值 
APPEND 追加 新 内 容 到 值 的 末尾 


ER 7-3 中 ,我们 列举 了 9 个 常用 的 Redis 字符 串 操作 命令 。 下 面 , 我 们 结合 具体 的 示 
例 对 这 些 命令 进行 详细 讲解 。 


1. SET 命令 


使 用 SET 命令 为 指定 字符 串 键 设置 值 ,该 命令 与 操作 键 的 命令 一 致 , 具 体 语 法 如 下 : 
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SET key value 


上 述 语法 中 ,SET 是 为 指定 字符 串 设 置 值 的 命令 ,若是 所 指定 的 字符 串 键 不 存在 , 则 进 
行 创建 操作 ,否则 进行 覆盖 操作 ;key 表示 字符 串 键 ; value 表示 为 字符 串 键 设置 的 值 。 
下 面 ,我 们 演示 为 字符 串 键 website 设置 值 wwwo.itcast.cn, 具 体 如 下 : 


127.0.0.1:6379» set website "www.itcast.cn" 
OK 


从 上 述 返回 结果 OK 可 以 看 出 ,我 们 成 功 为 字符 串 键 website 设置 值 www.itcast.cn。 
2. MSET 命令 
使 用 MSET 命令 为 多 个 字符 串 键 设置 对 应 的 值 , 具 体 语 法 如 下 : 


MSET key value [key value ...] 


上 述 语 法 中 ,MSET 是 为 多 个 字符 串 键 设 置 对 应 值 的 命令 ,若是 该 字符 串 不 存在 , 则 进 
行 创建 操作 ,否则 进行 覆盖 操作 s key 表示 字符 串 的 键 ;value 表示 字符 串 键 设置 的 值 ;[key 
value .表示 可 以 为 多 个 字符 串 键 设置 对 应 的 值 。 


下 面 ,我 们 演示 为 字符 串 键 websitel 设置 值 www.itheima.com, F4 tB ftt website2 设 
置 值 www.boxuegu.com 及 字符 串 键 website3 设置 值 www.ityxb.com ,具体 如 下 : 


127.0.0.1:6379»mset websitel "www.itheima.com" website2 "www.boxuegu.com" 
website3 "www.ityxb.com" 
OK 


从 上 述 返 回 结果 OK 可 以 看 出 ,我们 成 功 为 字符 串 键 websitel .website2 以 及 website3 
分 别 设置 对 应 的 值 。 


3. GET 命令 
使 用 GET 命令 获取 指定 字符 串 键 的 值 , 具 体 语 法 如 下 : 
GET key 


上 述 语 法 中 ,GET 是 用 于 获取 指定 字符 串 键 值 的 命令 key 表示 字符 串 键 。 
下 面 ,我 们 演示 获取 字符 串 website 的 值 ,具体 如 下 : 


127.0.0.1:6379>get website 


"www.itcast.cn" 


从 上 述 返回 结果 可 以 看 出 ,字符 串 键 website 的 值 为 www.itcast.cn, 说 明 我 们 成 功 获取 
字符 串 键 website 的 值 。 


dd 
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4. MGET 命令 


使 用 MGET 命令 获取 多 个 字符 串 键 的 对 应 值 ,具体 语法 如 下 : 


MGET keyl key2 ... 


上 述 语法 中 ,MGET 是 用 于 获取 指定 多 个 键 的 值 的 命令 ;keyl、key2 .… 表 示 多 个 键 。 
下 面 , 我 们 演示 获取 字符 串 键 websitel、website2、website3 以 及 website5 的 值 ,具体 
WF. 


127.0.0.1:6379»mget websitel website2 website3 website5 
1) "www.itheima.com" 

2) "www.boxuegu.com" 

3) "www.ityxb.com" 

4) (nil) 


从 上 述 返回 结果 可 以 看 出 ,字符 串 键 websitel website? 和 website3 的 值 分 别 为 www. 
itheima.com ,www.boxuegu.com 及 www.ityxb.com ,而 字符 串 键 website5 的 值 为 nil, 这 是 
因为 字符 串 键 website5 并 不 存在 ,因此 返回 特殊 值 nil. 


5. GETSET 命令 


使 用 GETSET 命令 获取 指定 字符 串 键 的 旧 值 并 设置 新 值 .具体 语法 如 下 : 
GETSET key value 


上 述 语 法 中 ,GETSET 是 用 于 获取 指定 字符 串 键 的 旧 值 并 设置 新 值 ;key 表示 字符 串 
键 ;value 表示 字符 串 键 的 新 值 。 若 指定 字符 串 键 存 在 , 则 返回 该 键 的 旧 值 ,反之 返回 nil 特 
殊 值 。 

下 面 ,我 们 演示 获取 字符 串 键 website4 的 旧 值 并 设置 新 值 ,执行 “getset website4 
"www.itezh.com" ”命令 获 取 字 符 串 键 website4 的 旧 值 并 设置 新 值 ,然后 执行 get website4 
命令 ,查看 字符 串 键 website4 是 否 被 成 功 设置 新 值 .具体 如 下 : 


127.0.0.1:6379»getset website4 "www.kudingyu.com" 
(nil) 

127.0.0.1:6379»getset website4 "www.itczh.com" 
"www.kudingyu.com" 

127.0.0.1:6379»get website4 

"www.itczh.com" 


从 上 述 返 回 结果 可 以 看 出 ,最 开始 字符 串 键 website4 不 存在 ,因此 返回 特殊 值 nil, 2428 
一 次 执行 getset 命令 后 ,字符 串 键 website4 就 被 指定 值 为 www.kudingyu.com ,第 二 次 执行 
getset 命令 设置 字符 串 键 website4 新 值 后 .返回 了 字符 串 键 website4 的 旧 值 www. 


kudingyu.com, 


第 7 章 键 值 对 存储 数据 库 Redis 1229 


6. STRLEN 命令 


使 用 STRLEN 命令 获取 指定 字符 串 键 值 的 长 度 , 具 体 语法 如 下 : 


STRLEN key 


上 述 语法 中 ,STRLEN 是 用 于 获取 指定 字符 串 键 值 的 长 度 s key 表示 字符 串 键 。 
下 面 ,我 们 演示 获取 字符 串 键 website4 值 的 长 度 , 具 体 如 下 : 


127.0.0.1:6379>strlen website4 
(integer) 13 


从 上 述 返回 结果 13? 可 以 看 出 ,字符 串 键 website4 的 值 的 长 度 为 13, 即 www.itczh. 


com 的 长 度 为 13 个 字 节 长 度 。 


7. GETRANGE 命令 
使 用 GETRANGE 命令 获取 字符 串 键 指定 索引 范围 的 值 内 容 ,具体 语法 如 下 : 
GETRANGE key start end 


上 述 语 法 中 ,GETRANGE 是 用 于 获取 字符 串 键 指定 索引 范围 的 值 内 容 s key 表示 字符 


串 键 ;start 表示 范围 的 起 始 索引 :end 表示 范围 的 结束 索引 。 


下 面 ,我 们 演示 如 何 获取 字符 串 键 website 指定 索引 范围 在 [4,9] 的 值 内 容 , 具 体 如 下 : 


127.0.0.1:6379>getrange website 49 
"itcast" 


从 上 述 返 回 结果 "itcast" 可 以 看 出 ,字符 串 键 website 的 值 在 索引 范围 为 L4,9] 的 内 容 为 


itcast, 


8. SETRANGE 命令 
使 用 SETRANGE 命令 为 字符 串 键 的 指定 索引 位 置 蔡 换 值 , 具 体 语 法 如 下 : 
SETRANGE key offset value 


上 述 语法 中 ,SETRANGE 是 用 于 为 字符 串 键 的 指定 索引 位 置 替 换 值 的 命令 ;key 表示 


字符 串 键 ;offset 表示 偏 移 量 ;value 表示 为 字符 串 键 的 指定 索引 位 置 蔡 换 值 。 


下 面 , 我 们 演示 为 字符 串 键 website 的 索引 为 4 的 位 置 替 换 值 为 nosql, 并 通过 执行 get 


website 获取 该 字符 串 键 的 值 ,查看 是 否 成 功 为 字符 串 键 website 蔡 换 值 ,具体 如 下 : 


127.0.0.1:6379> setrange website 4 "nosql" 
(integer) 13 
127.0.0.1:6379>get website 


"www.nosqlt.cn" 
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从 上 述 返 回 结果 可 以 看 出 ,字符 串 键 website 的 值 在 索引 为 4 的 位 置 处 替换 值 为 
nosql, 由 于 itcast 包含 6 字 节 ,从 位 置 为 0 处 作为 起 点 ,位 置 为 5 处 作为 终点 ,替换 为 nosql， 
因此 说 明 我 们 成 功 为 字符 串 键 website 的 指定 位 置 替 换 值 。 


9. APPEND 命令 


使 用 APPEND 命令 为 指定 字符 串 键 的 值 末尾 追加 新 内 容 , 具 体 语法 如 下 : 


APPEND key value 


上 述 语法 中 ,APPEND 是 用 于 为 指定 字符 串 键 的 值 末尾 追加 新 内 容 的 命令 ;key 表示 
字符 串 键 ;value 表示 追加 的 新 内 容 。 

下 面 ,我 们 演示 为 字符 串 键 website 的 值 的 末尾 追加 itcast, 并 通过 执行 get website 3X 
取 该 字符 串 键 的 值 ,查看 是 否 成 功 为 字符 串 键 website 的 值 的 末尾 追加 新 内 容 , 具 体 如 下 : 


127.0.0.1:6379» append website "itcast" 
(integer) 19 
127.0.0.1:6379»get website 


"www.nosqlt.cnitcast" 

从 上 述 返回 结果 可 以 看 出 ,字符 串 键 website 的 值 末尾 的 内 容 为 itcast, 因 此 说 明 我 们 
成 功 为 字符 串 键 website 的 值 末尾 追加 内 容 itcast。 
743 操作 列表 


List 列表 是 一 种 线性 的 有 序 结构 ,Redis 为 List 列表 提供 了 相关 的 操作 命令 。 表 7-4 介 
绍 了 常用 的 List 操作 命令 及 相关 说 明 。 
表 7-4 Redis 常用 的 List 列表 操作 命令 及 相关 说 明 


操作 命令 相关 说 明 

RPUSH 将 一 个 或 多 个 元 素 推 人 到 列表 的 右 端 
LPUSH 将 一 个 或 多 个 元 素 推 人 到 列表 的 左 端 
LRANGE 获取 列表 指定 索引 范围 内 的 元 素 
LINDEX 获取 列表 指定 索引 位 置 上 的 元 素 
RPOP 弹出 列表 最 右 端 的 元 素 

LPOP 弹出 列表 最 左 端的 元 素 

LLEN 获取 指定 列表 的 长 度 

LREM 移 除 列表 中 的 指定 元 素 


ER 7-4 中 ,我 们 列举 了 8 个 常用 的 Redis 列表 操作 命令 。 下 面 ,我 们 通过 具体 的 示例 
对 这 些 命令 进行 详细 讲解 。 
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1. RPUSH 命令 


使 用 RPUSH 命令 将 一 个 或 多 个 元 素 推 入 到 列表 的 右 端 ,具体 语法 如 下 : 


上 述 语法 中 ,RPUSH 是 将 一 个 或 多 个 元 素 推 人 到 列表 的 右 端的 命令 , 若 所 指定 的 列表 
不 存在 , 则 会 创建 空 列 表 ,然后 往 该 列表 中 推 人 元 素 ;key 表示 列表 ;value 表示 为 指定 列表 
插入 的 元 素 值 。 

下 面 , 我 们 演示 依次 将 元 素 blue. green, purple, red, white 推 人 到 列表 color 的 右 端 ,并 
执行 lrange color 0 -1 命令 ,查看 是 否 已 经 将 5 个 元 素 推 人 到 列表 color 的 右 端 ,具体 如 下 : 


从 上 述 返 回 结 果 可 以 看 出 ,我 们 成 功 将 元 素 blue, green, purple, red, white 五 个 元 素 推 
人 到 列表 color 的 右 端 。 


2.LPUSH 命令 


使 用 LPUSH 命令 将 一 个 或 多 个 元 素 推 入 到 列表 的 左 端 ,具体 语法 如 下 : 


上 述 语 法 中 ,LPUSH 是 将 一 个 或 多 个 元 素 推 入 到 列表 的 左 端的 命令 ,车 所 指定 的 列表 
不 存在 , 则 会 创建 空 列表 ,然后 往 该 列表 中 推 人 元素;key 表示 列表 ;value 表示 为 指定 列表 
推 信 的 元 素 值 。 

下 面 ,我 们 演示 依次 将 元 素 apple, banana, mango 推 入 到 列表 color 的 左 端 ,并 执行 
lrange color 0 -1 命令 ,查看 是 否 已 经 将 三 个 元 素 推 人 到 列表 color 的 左 端 ,具体 如 下 : 
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从 上 述 返 回 结果 可 以 看 出 ,我 们 成 功 往 列表 中 推 人 8 个 元 素 , 其 中 有 5 个 元 素 是 执行 
rpush 命令 推 人 到 列表 color 中 ,三 个 元 素 是 执行 lpush 命令 推 人 到 列表 color 中 。 


3.LRANGE 命令 
使 用 LRANGE 命令 获取 列表 指定 索引 范围 内 的 元 素 , 具 体 语法 如 下 : 


上 述 语法 中 ,LRANGE 是 用 于 获取 列表 指定 索引 范围 内 的 元 素 ;key 表示 列表 ; start 
表示 起 始 索 引 ;stop 表示 结束 索引 。 
下 面 ,我 们 演示 获取 列表 color 指定 索引 范围 L0.7] 的 元 素 , 具 体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 ,我 们 成 功 获取 列表 color 中 索引 为 [0.7] 的 8 个 元 素 ,若是 
想 要 获取 全 部 元 素 , 则 可 以 指定 范围 为 [0. 一 1]。 


4. LINDEX 命令 


使 用 LINDEX 命令 获取 列表 指定 索引 位 置 上 的 元 素 , 具 体 语 法 如 下 : 


上 述 语 法 中 ,LINDEX 是 用 于 获取 列表 指定 索引 位 置 上 的 元 素 的 命令 ;key 表示 列表 ; 
index 表示 索引 位 置 。 
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下 面 ,我 们 演示 获取 列表 color 中 索引 位 置 为 3 的 元 素 , 具 体 如 下 : 


从 上 述 返回 结果 "blue" 可 以 看 出 ,列表 color 中 索引 位 置 为 3 的 元 素 是 blue. 
5. RPOP 命令 
使 用 RPOP 命令 移 除 列表 最 右 端的 元 素 , 具 体 语 法 如 下 : 


上 述 语 法 中 ,RPOP 是 用 于 移 除 列 表 最 右 端 元 素 的 命令 ;key 表示 列表 。 
下 面 , 我 们 演示 移 除 列表 color 最 右 端 的 元 素 , 并 执行 lrange color 0 -1 命令 ,查看 最 右 
端的 元 素 是 否 被 移 除 ,具体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 ,列表 color 最 右 端的 元 素 white 已 经 不 存在 了 ,因此 说 明 我 
们 成 功 移 除 列 表 color 最 右 端 的 元 素 。 


6.LPOP 命令 
使 用 LPOP 命令 移 除 列 表 最 左 端的 元 素 , 具 体 语法 如 下 : 


上 述 语 法 中 ,LPOP 是 用 于 移 除 列 表 最 左 端 元 素 的 命令 ;key 表示 列表 。 
下 面 ,我 们 演示 移 除 列表 color 最 左 端的 元 素 ,并 执行 lrange color 0 -1 命令 ,查看 最 左 
端的 元 素 是 否 被 移 除 ,具体 如 下 : 
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4) "green" 
5) "purple" 
6) "red" 


从 上 述 返 回 结果 可 以 看 出 ,列表 color 最 左 端的 元 素 mango 已 经 不 存在 了 ,因此 说 明 我 
们 成 功 移 除 列表 color 最 左 端的 元 素 。 


7.LLEN 命令 


使 用 LLEN 命令 获取 列表 中 值 的 长 度 , 也 就 是 元 素 的 个 数 ,具体 语 法 如 下 : 


LLEN key 


上 述 语 法 中 ,LLEN 是 用 于 获取 列表 中 值 的 长 度 的 命令 ;key 表示 列表 。 
下 面 ,我 们 演示 获取 列表 color 中 值 的 长 度 , 也 就 是 元 素 的 个 数 , 具 体 如 下 : 


127.0.0.1:6379»11en color 
(integer) 6 


从 上 述 返回 结果 “6? 可 以 看 出 ,列表 color 中 值 的 长 度 为 6, 即 说 明 列 表 color 中 共有 6 


个 元 素 , 即 元 素 banana apple blue, green, purple, redo 
8. LREM 命令 
使 用 LREM 命令 移 除 列表 中 的 指定 元 素 , 具 体 语 法 如 下 : 
LREM key count value 


上 述 语法 中 ,LREM 是 用 于 移 除 列表 中 的 指定 元 素 的 命令 ;key 表示 列表 ;count 参数 
的 值 决定 了 LREM 命令 移 除 元 素 的 方式 ,车 count 二 0, 则 从 列表 头 开始 向 列表 尾 搜索 , 移 除 
与 value 相等 的 元 素 , 移 除 元 素 的 数量 为 count 的 绝对 值 ; 若 count 过 0, 则 从 列表 尾 开 始 向 
列表 头 搜索 , 移 除 与 value 相等 的 元 素 , 移 除 元 素 的 数量 为 count 的 绝对 值 : 若 count — 0 , Dll 
移 除 列表 中 所 有 与 value 相等 的 值 ;value 表示 要 移 除 的 元 素 。 

下 面 , 先 执行 “rpush color "hello" "hello" "world" "hello" ”命令 , 往 列表 mycolor 的 右 
端 推 入 4 个 元 素 , 然 后 再 演示 从 左 往 右 移 除 列表 mycolor 中 值 为 hello 的 两 个 元 素 , 并 执行 
lrange mycolor 0 -1 命令 ,查看 列表 中 值 为 hello 的 2 个 元 素 是 否 被 移 除 ,具体 如 下 : 


127.0.0.1:6379» rpush mycolor "hello" "hello" "world" "hello" 
(integer) 4 

127.0.0.1:6379» 1rem mycolor -2 hello 

(integer) 2 

127.0.0.1:6379»1range mycolor 0 -1 

1) "hello" 

2) "world" 


从 上 述 返 回 结果 可 以 看 出 ,列表 mycolor 中 值 为 hello 的 两 个 元 素 从 左 侧 开 始 移 除 , 因 
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此 说 明 我 们 成 功 删除 列表 mycolor 左 侧 值 为 hello 的 两 个 元 素 。 


744 操作 集合 


Sets 集合 是 Redis 的 基本 数据 结构 之 一 。Redis 为 Sets 集合 提供 了 相关 的 操作 命令 。 
下 面 ,通过 一 张 表 来 介绍 常用 的 Sets 操作 命令 及 相关 说 明 , 具 体 如 表 7-5 Bron 。 


表 7-5 Redis 常用 的 Sets 集合 操作 命令 及 相关 说 明 


操作 命令 相关 说 明 
SADD 将 一 个 或 多 个 元 素 添加 到 集合 中 
SCARD 获取 集合 中 的 元 素数 量 
SMEMBERS 获取 集合 中 的 所 有 元 素 
SISMEMBER 检查 指定 元 素 是 否 存在 于 集合 中 
SREM 移 除 集合 中 的 一 个 或 多 个 已 存在 的 元 素 
SMOVE 将 元 素 从 一 个 集合 移动 到 另 一 个 集合 


ER 7-5 中 ,我 们 列举 了 6 个 常用 的 Redis 集合 操作 命令 。 下 面 ,我 们 通过 具体 的 示例 
对 这 些 命令 进行 详细 讲解 。 


1. SADD 命令 
使 用 SADD 命令 将 一 个 或 多 个 元 素 添加 到 集合 中 ,具体 语法 如 下 : 


SADD key member [member***] 


上 述 语法 中 ,SADD 是 将 一 个 或 多 个 元 素 添加 到 集合 中 的 命令 , 若 所 指定 的 集合 不 存 
在 , 则 创建 集合 ,并 将 元 素 添 加 进 该 集合 中 ;key 表示 集合 ;member [member…] 表 示 一 个 
或 多 个 元 素 。 

下 面 ,我 们 演示 将 元 素 redis ,mongodb hbase 添加 到 集合 databases 中 ,具体 如 下 : 


127.0.0.1:6379>sadd databases "redis" "mongodb" "hbase" 
(integer) 3 


从 上 述 返回 结果 “3? 可 以 看 出 ,我 们 成 功 将 三 个 元 素 添 加 到 集合 databases 中 。 


2. SCARD 命令 


使 用 SCARD 命令 获取 集合 中 的 元 素数 量 ,具体 语法 如 下 : 
SCARD key 


上 述 语法 中 ,SCARD 是 获取 集合 中 元 素数 量 的 命令 ;key 表示 集合 。 
下 面 ,我 们 演示 获取 集合 databases 中 的 元 素数 量 ,具体 如 下 : 
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从 上 述 返回 结果 3? 可 以 看 出 ,集合 databases 中 包含 三 个 元 素 。 
3. SMEMBERS 命令 
使 用 SMEMBERS 命令 获取 集合 中 的 所 有 元 素 , 具 体 语 法 如 下 : 


上 述 语法 中 ,SMEMBERS 是 用 于 获取 集合 中 所 有 元 素 的 命令 ;key 表示 集合 。 
下 面 ,我 们 演示 获取 集合 databases 中 的 所 有 元 素 , 具 体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 ,集合 databases 中 包含 的 元 素 为 hbase、mongodb 以 及 hbase, 
4. SISMEMBER 命令 
使 用 SISMEMBER 命令 判断 指定 元 素 是 否 存在 于 集合 中 ,具体 语法 如 下 : 


上 述 语法 中 ,SISMEMBER 用 于 判断 指定 元 素 是 否 存在 于 集合 中 的 命令 ;key KIR 
fr member 表示 需要 判断 的 元 素 。 

下 面 , 我 们 演示 检查 元 素 redis 是 否 存在 于 集合 databases 中 , 若 存在 则 返回 1, 反 之 返 
回 0, 具 体 如 下 : 


从 上 述 返回 结果 “1? 可 以 看 出 ,元素 redis 存在 于 集合 databases 中 。 
5. SREM 命令 
使 用 SREM 命令 移 除 集合 中 的 一 个 或 多 个 已 存在 的 元 素 , 具 体 语 法 如 下 : 


上 述 语法 中 ,SREM 是 用 于 移 除 集合 中 的 一 个 或 多 个 已 存在 元 素 的 命令 ; key 表示 集 
fi member [member…] 表 示 一 个 或 多 个 元 素 。 
下 面 , 我 们 演示 移 除 集合 databases 中 的 元 素 hbase, 并 执行 smembers databases 命令 ， 
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查看 元 素 hbase 是 否 被 移 除 ,具体 如 下 : 


127.0.0.1:6379> srem databases hbase 
(integer) 1 

127.0.0.1:6379» smembers databases 
1) "mongodb" 


2) "redis" 


从 上 述 返 回 结果 可 以 看 出 ,集合 databases 中 已 经 不 存在 元 素 hbase, 因 此 说 明 我 们 成 
功 移 除 集合 databases 中 的 元 素 hbase。 


6. SMOVE 命令 


使 用 SMOVE 命令 将 元 素 从 一 个 集合 移动 到 另 一 个 集合 ,具体 语法 如 下 : 


SMOVE source destination member 


上 述 语法 中 ,SMOVE 是 用 于 将 元 素 从 一 个 集合 移动 到 另 一 个 集合 的 命令 ;source 表示 
原始 集合 ;destination 表示 目标 集合 ;member 表示 要 移动 的 元 素 。 

下 面 ,我 们 演示 将 元 素 redis 从 集合 databases 中 移动 到 集合 databasesNew 中 。 首 先 执 
行 “sadd databasesNew "mysql" ”命令 ,创建 集合 databasesNew 并 插入 元 素 mysql; 然后 执 
ÍT smove databases databasesNew redis 命令 ,把 元 素 redis 从 集合 databases 中 移动 到 
databasesNew 中 ;最 后 执行 smembers databasesNew 命令 。 查 看 是 否 成 功 将 元 素 redis 从 
集合 databases 中 移动 到 databasesNew 中 。 如 果 如 下 : 


127.0.0.1:6379>sadd databasesNew "mysql" 
(integer) 1 

127.0.0.1:6379» smove databases databasesNew redis 
(integer) 1 

127.0.0.1:6379» smembers databasesNew 

1) "mysql" 

2) "redis" 


从 上 述 返 回 结果 可 以 看 出 ,集合 databasesNew 中 已 经 存在 元 素 redis, 因 此 说 明 我 们 成 
功 将 元 素 redis 从 集合 databases 中 移动 到 databasesNew 中 。 


7.4.5 操作 散 列 


Hash 散 列 也 是 Redis 的 基本 数据 结构 之 一 。Redis 为 Hash 散 列 提供 了 客户 端的 操作 
命令 。 下面, 通过 一 张 表 来 介绍 常用 的 Hash 操作 命令 及 相关 说 明 , 具 体 如 表 7-6 所 示 。 
37-6 Redis 常用 的 Hash 散 列 操作 命令 及 相关 说 明 
操作 命令 相关 说 明 


HSET 为 散 列 中 的 指定 键 设置 值 


HMSET 为 散 列 中 多 个 键 设置 值 
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BR 
操作 命令 相关 说 明 
HGET 获取 散 列 中 指定 键 的 值 
HMGET 获取 散 列 中 多 个 键 的 值 
HGETALL 获取 散 列 中 的 所 有 键 值 对 
HKEYS 获取 散 列 中 的 所 有 键 
HVALS 获取 散 列 中 的 所 有 键 的 值 
HDEL 删除 散 列 中 指定 键 及 其 相对 应 的 值 


ER 7-6 中 ,我们 列举 了 8 个 常用 的 Redis 散 列 操作 命令 。 下 面 ,我 们 结合 具体 的 示例 
对 这 些 命令 进行 详细 讲解 。 


1. HSET 命令 


使 用 HSET 命令 为 散 列 中 指定 键 设置 值 .具体 语法 如 下 : 
HSET key field value 


上 述 语法 中 , HSET 是 用 于 为 散 列 中 指定 键 设置 值 的 命令 ;若是 散 列 不 存在 , 则 会 创建 
一 个 新 的 散 列 ,并 进行 HSET 操作 ,反之 进行 覆盖 操作 。key 表示 散 列 ;field 表示 散 列 中 的 
键 ;value 表示 键 对 应 的 值 。 

下 面 , 我 们 演示 为 散 列 article 中 的 键 title 设置 值 greeting。 若 是 散 列 article 中 不 存在 
指定 键 title, 则 进行 创建 和 赋值 操作 ,并 返回 1; 若 是 散 列 article 中 存在 键 title, 则 进行 覆盖 
操作 ,并 返回 0, 具体 如 下 : 


127.0.0.1:6379>hset article title "greeting" 
(integer) 1 


从 上 述 返 回 结果 “1” 可 以 看 出 , 散 列 article 中 不 存在 键 title, 因 此 散 列 article 会 自动 创 
建 键 title, 并 为 其 设置 值 greeting。 


2. HMSET 命令 


使 用 HMSET 命令 为 散 列 中 多 个 键 设置 值 ,具体 语法 如 下 : 


HMSET key field value [field value ...] 


上 述 语法 中 , HMSET 是 用 于 为 散 列 中 的 多 个 键 设置 值 的 命令 ; key 表示 散 列 ; field 
value [field value ...] 表 示 散 列 中 的 一 个 或 多 个 键 及 其 对 应 的 值 。 

下 面 . 我 们 演示 为 散 列 article 中 的 键 content, author 分 别 设置 值 Hello World, Peter, 
具体 如 下 : 
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从 上 述 返回 结果 OK 可 以 看 出 :我们 成 功 为 散 列 article 中 的 键 content, author 设置 值 。 
3. HGET 命令 
使 用 HGET 命令 获取 散 列 中 指定 键 的 值 ,具体 语法 如 下 : 


上 述 语法 中 ,HGET 是 用 于 获取 散 列 中 指定 键 的 值 的 命令 ;key 表示 散 列 ;field 表示 散 
列 中 的 键 。 
下 面 , 我 们 演示 获取 散 列 article 中 键 title 的 值 ,具体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 , 散 列 article PHE title 的 值 为 greeting。 


4. HMGET 命令 
使 用 HMGET 命令 获取 散 列 中 多 个 键 的 值 ,具体 语法 如 下 : 


上 述 语法 中 ,HMGET 是 用 于 获取 散 列 中 多 个 键 的 值 的 命令 ;key 表示 散 列 ;field [field 
.…j 表 示 散 列 中 的 一 个 或 多 个 键 。 
TF ili ,我们 演示 获取 散 列 article 中 键 content 和 键 author 的 值 ,具体 如 下 : 


从 上 述 返 回 结 果 可 以 看 出 , 散 列 article 中 键 content 和 键 author 的 值 分 别 为 Hello 
World 和 Peter。 


5. HGETALL 命令 


使 用 HGETALL 命令 获取 散 列 中 的 所 有 键 值 对 ,具体 语法 如 下 : 


上 述 语法 中 ,HGETALL 是 用 于 获取 散 列 中 的 所 有 键 值 对 的 命令 ;key 表示 散 列 。 
下 面 ,我 们 演示 获取 散 列 article 中 所 有 的 键 值 对 ,具体 如 下 : 
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从 上 述 返 回 结果 可 以 看 出 , 散 列 article 中 所 有 的 键 值 对 均 打印 出 来 。 
6. HKEYS 命令 
使 用 HKEYS 命令 获取 散 列 中 的 所 有 键 ,具体 语法 如 下 : 


上 述 语法 中 ,HKEYS 是 用 于 获取 散 列 中 的 所 有 键 的 命令 ;key 表示 散 列 。 
下 面 ,我 们 演示 获取 散 列 article 中 所 有 的 键 ,具体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 , 散 列 article 中 一 共有 三 个 键 ,分 别 为 键 title, content, 


author。 
7. HVALS 命令 
使 用 HVALS 命令 获取 散 列 中 的 所 有 键 的 值 ,具体 语法 如 下 : 


上 述 语法 中 ,HVALS 是 用 于 获取 散 列 中 的 所 有 键 的 值 的 命令 ;key 表示 散 列 。 
下 面 ,我 们 演示 获取 散 列 article 中 所 有 键 的 值 ,具体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 , 散 列 article 中 键 的 值 分 别 为 greeting, Hello World, Peter, 
8. HDEL 命令 
使 用 HDEL 命令 删除 散 列 中 指定 键 及 其 相对 应 的 值 ,具体 语法 如 下 : 
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上 述 语法 中 , HDEL 是 用 于 删除 散 列 中 指定 键 及 其 相对 应 的 值 的 命令 ;key 表示 散 列 ; 
field [field ...] 表 示 散 列 中 的 一 个 或 多 个 键 。 

下 面 , 我 们 演示 删除 散 列 article 中 键 title 及 其 对 应 的 值 greeting ,并 通过 执行 hgetall 
article 命令 ,查看 键 title 及 其 对 应 的 值 greeting 是 否 被 删除 ,具体 如 下 : 


127.0.0.1:6379»hdel article title 
(integer) 1 
127.0.0.1:6379»hgetall article 

1) "content" 

2) "Hello World" 

3) "author" 

4) "Peter" 


从 上 述 返回 结果 可 以 看 出 , 散 列 article 中 已 经 不 存在 键 title 及 其 对 应 值 greeting ,因此 
说 明 我 们 成 功 删除 散 列 article 中 键 title 及 其 对 应 的 值 greeting。 
746 操作 有 序 集合 


Sorted Sets 有 序 集合 是 Redis 中 最 为 灵活 的 数据 结构 。Redis 为 Sorted Sets 有 序 集合 
提供 了 客户 端的 操作 命令 。 下 面 , 通 过 一 张 表 来 介绍 常用 的 Sorted Sets 操作 命令 及 相关 说 
明 , 具 体 如 表 7-7 所 示 。 


表 7-7 Redis 常用 的 Sorted Sets 有 序 集合 操作 命令 及 相关 说 明 


操作 命令 相关 说 明 

ZADD 为 有 序 集合 添加 一 个 或 多 个 键 值 对 

ZCARD 获取 有 序 集合 中 元 素 的 个 数 

ZCOUNT 统计 有 序 集合 中 指定 分 值 范围 内 的 元 素 个 数 
ZRANGE 获取 有 序 集合 中 指定 索引 范围 内 的 元 素 
ZSCORE 获取 有 序 集合 中 指定 元 素 的 分 值 

ZREM 移 除 有 序 集合 中 的 指定 元 素 


ER 7-7 中 ,我 们 列举 了 6 个 常用 的 Redis 有 序 集合 操作 命令 。 下 面 ,我 们 结合 具体 的 
示例 对 这 些 命令 进行 详细 讲解 。 


1. ZADD 命令 
使 用 ZADD 命令 为 有 序 集合 添加 一 个 或 多 个 键 值 对 ,具体 语法 如 下 : 
ZADD key [NX|XX] [CH] [INCR] score member [score member ...] 


上 述 语法 中 ,ZADD 是 用 于 为 有 序 集合 添加 一 个 或 多 个 键 值 对 的 命令 ;key 表示 有 序 集 
合 ;LNXIXX]、LCHJ] [LINCR] 为 可 选 参数 ,其 中 ,LNXIXX] 表 示 不 更 新 或 更 新 存在 的 元 素 ， 
NX 表示 不 仅仅 添加 新 元 素 ,XX 表示 不 添加 新 元 素 ,LCH] 表 示 返 回 发 生变 化 的 元 素 总 数 ， 
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[LINCRJ 表 示 指 定 元 素 按照 分 值 进行 递增 操作 ;score member [score member ...] 表 示 有 序 
集合 的 一 个 或 多 个 的 键 值 对 ,其 中 score 表示 键 值 对 中 的 键 , 即 分 值 ,member 表示 键 值 对 中 
的 值 , 即 元 素 。 

下 面 ,我 们 演示 为 有 序 集合 salary 添加 三 个 键 值 对 ,分 别 为 “分 值 5000 ,元 素 Peter”“ 分 
值 3500 ,元 素 Tom” 以 及 “分 值 6000 ,元 素 Jack”, 具 体 如 下 : 


127.0.0.1:6379>zadd salary 5000 "Peter" 3500 "Tom" 6000 "Jack" 
(integer) 3 


从 上 述 返 回 结果 “3” 可 以 看 出 ,有 序 集合 salary 中 已 经 成 功 添加 三 个 键 值 对 。 
2. ZCARD 命令 


使 用 ZCARD 命令 获取 有 序 集合 中 元 素 的 个 数 ,具体 语法 如 下 : 


ZCARD key 


上 述 语法 中 ,ZCARD 是 用 于 获取 有 序 集合 中 元 素 的 个 数 的 命令 ;key 表示 有 序 集合 。 
下 面 ,我 们 演示 获取 有 序 集合 salary 中 元 素 的 个 数 ,具体 如 下 : 


127.0.0.1:6379>zcard salary 
(integer) 3 


从 上 述 返 回 结果 “3” 可 以 看 出 ,有 序 集合 salary 中 有 三 个 元 素 。 

3. ZCOUNT 命令 

使 用 ZCOUNT 命令 统计 有 序 集合 中 指定 分 值 范围 内 的 元 素 个 数 ,具体 语法 如 下 : 
ZCOUNT key nin max 


上 述 语法 中 ,ZCOUNT 是 用 于 统计 有 序 集合 中 指定 分 值 范围 内 的 元 素 个 数 的 命令 ; 
key 表示 有 序 集合 ;min 表示 分 值 范围 的 最 小 值 ;max 表示 分 值 范围 的 最 大 值 。 
下 面 ,我 们 演示 统计 有 序 集合 salary 中 分 值 范围 为 [2000,5000] 的 元 素 个 数 , 具 体 如 下 : 


127.0.0.1:6379>zcount salary 2000 5000 
(integer) 2 


从 上 述 返回 结果 *2? 可 以 看 出 ,有 序 集合 salary 中 有 两 个 元 素 的 分 值 在 [2000,5000] 范 
围 之 内 。 


4. ZRANGE 命令 


使 用 ZRANGE 命令 获取 有 序 集合 中 指定 索引 范围 内 的 元 素 , 具 体 语 法 如 下 : 


ZRANGE key start stop 
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上 述 语法 中 ,ZRANGE 是 用 于 获取 有 序 集合 中 指定 索引 范围 内 元 素 的 命令 ;key 表示 
有 序 集合 ;start 表示 起 始 索引 ;stop 表示 终止 索引 。 
下 面 ,我 们 演示 获取 有 序 集合 salary 中 指定 索引 范围 0,1] 内 的 元 素 ,具体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 ,有 序 集合 salary 中 索引 范围 在 [0.1] 内 的 元 素 有 两 个 ,分 别 
是 元 素 Tom 和 Peter。 


5. ZSCORE 命令 


使 用 ZSCORE 命令 获取 有 序 集合 中 指定 元 素 的 分 值 , 具 体 语法 如 下 : 


上 述 语 法 中 ,ZSCORE 是 用 于 获取 有 序 集合 中 指定 元 素 的 分 值 的 命令 ;key 表示 有 序 集 
fi member 表示 有 序 集合 中 的 元 素 。 
下 面 ,我 们 演示 获取 有 序 集合 salary 中 指定 元 素 Peter 的 分 值 ,具体 如 下 : 


从 上 述 返 回 结 果 可 以 看 出 ,有 序 集合 salary 中 元 素 Peter 的 分 值 为 5000 。 
6. ZREM 命令 


使 用 ZREM 命令 移 除 有 序 集合 中 的 指定 元 素 , 具 体 语 法 如 下 : 


上 述 语法 中 ,ZREM 是 用 于 移 除 有 序 集合 中 指定 元 素 分 值 的 命令 ;key 表示 有 序 集合 ; 
member [member ...] 表 示 有 序 集 合 中 的 一 个 或 多 个 元 素 。 

下 面 , 我 们 演示 移 除 有 序 集合 salary 中 的 指定 元 素 Jack, 并 执行 zrange salary 0 -1 命 
令 , 查 看 元 素 Jack 是 否 被 移 除 ,具体 如 下 : 


从 上 述 返回 结果 可 以 看 出 ,有 序 集合 salary 中 元 素 Jack 已 经 被 移 除 。 
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7.5 使 用 Java 操作 Redis 

前 面 章 节 中 ,我 们 讲解 了 如 何 使 用 redis-cli 命令 行 工具 操作 Redis。 下 面 ,我 们 将 详细 
讲解 使 用 Java 操作 Redis 数据 库 中 的 键 和 常见 的 5 种 数据 结构 。 
7.5.1 环境 搭建 


目前 Java 的 主流 开发 工具 主要 有 两 种 : Eclipse 工具 和 IDEA 工具 ,这 里 我 们 选择 
IDEA 工具 来 编写 Java 代码 ,来 操作 Redis 数据 库 中 的 键 、 字 符 串 、 列 表 、 集 合 、 散 列 以 及 有 
FER. 


1. 创建 Java MA 


打开 IDEA 工具 , 单 击 Create New Project-~>Java, 选 择 创 建 一 个 Java 项 目 , 如 图 7-27 
所 示 。 


Bl New Project x 

C Project SDK: [ RZ 1.8 (java version *1.8.0 202") Me New... 
Bg Java FX 
由 Android 


(*. IntelliJ Platform Plugin 


Additional Libraries and Frameworks: 


[1$ Groovy 
DE Kotlin/jVM 


M Maven 
A Gradle 


@ Groovy 
区 Kotlin 
Ws Empty Project 


Use library: | [No library selected] 


Cancel | Help 
图 7-27 选择 创建 Java 项 目 


在 图 7-27 中 , 单 击 Next Next 按钮 ,添加 Java 项 目的 名 称 并 指定 项 目的 存储 路 径 , 如 
图 7-28 所 示 。 
在 图 7-28 中 , 单 击 Finish 按钮 .完成 Java 项 目的 创建 ,效果 如 图 7-29 所 示 。 


2. 导 入 Jar 包 


在 项 目 nosql_chapter07 中 创建 一 个 文件 夹 lib, 用 于 存放 项 目 所 依赖 的 Jar 包 , 这 里 是 
导入 Redis 相关 的 Jar 包 和 单元 测试 的 Jar, Jar 包 导 入 lib 文件 夹 后 ,选中 导入 的 所 有 
Jar 并 右 击 ,在 弹出 的 快捷 菜单 中 选择 “Add as Library…” 选 项 添加 依赖 ,弹出 Create 
Library 窗口 ,在 Level 处 ,选择 Module Library, 将 Jar 包 添 加 到 本 模块 类 库 中 ,并 单 击 OK 
按钮 ,使 得 导入 的 Jar 包 生 效 ,效果 如 图 7-30 所 示 。 

在 图 7-30 中 ,commons-pool2-2.4.2.jar 和 jedis-2.9.0.jar 是 Redis 所 依赖 的 Jar 包 ， 
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Wl New Project x 
Projectname: | nosql chapter07 
Project location: | E:\data\ldeaProjects\nosql_chapter07 m 
* More Settings 
Module name: Í nosql chapter07 - 
Content root: EAdataNdeaProjectsWnosq! chapter07 © 
Module file location: E\data\ideaProjects\nosql_chapter07 is 
Project format: „idea (directory based) v 
SUE Cancel || Help 


图 7-28 添加 Java 项 目的 名 称 并 指定 项 目的 存储 路 径 


ME File Edit View Navigate Code Analyze Refactor Build Run Tools VCS Wind nosql chaptero 


> Bidea 
Ba src 
fl nosql chapter07.iml 
> illl External Libraries 
Tis Scratches and Consoles 


Bi Terminal — i 6 TODO 


n W 2: Favorites 


5 ü x 


^ [AddConfiguration.| > 5 G m m Q 


图 7-29 创建 好 的 Java AA 


B fie Edit View Navigate Code Analyze Refactor Build Run Tools VCS Window Help nosqlchapter07 
^ [AddConfiguration.. | > & 


B; nosql chapter07 > B lib 


[E Project ~ 
nosql_chapter07 E\data\deaproj 
Ba idea 


11 commons-pool2-2.4.2.jar 
H hamcrest-core-1.: 
H jedis-2.9.0jar 
H junit-4.12.jar 

Ba src 

f nosq! chapter07.iml 

> lilli External Libraries 
Tis Scratches and Consoles 


W 2:Fevorites. 


Z: Structure 


国 Terminal — i$ & TODO 


= o x 
a 器 


Q Event Log 


[=] 


7-30 导入 Jar 包 


hamcrest-core-1.3.jar 和 junit-4.12.jar 是 单元 测试 所 依赖 的 Jar 包 。 至 此 Java 操作 Redis 


的 环境 搭建 完成 。 
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3. 开启 Redis 远程 访问 


由 于 我 们 使 用 Java 远程 操作 Linux 环境 下 的 Redis 数据 库 , 因 此 我 们 需要 开启 Redis 
远程 访问 , 即 在 Redis 的 配置 文件 redis.conf 中 指定 主机 IP, 注 释 本 地 IP, 配 置 文件 redis. 
conf 中 修改 的 内 容 ( 加 粗 部 分 ) 如 下 : 


*---WARNING ~~~If the computer running Redis is directly exposed to the 
F*internet, binding to all the interfaces is dangerous and will expose the 
*instance to everybody on the internet. So by default we uncomment the 
*following bind directive, that will force Redis to listen only into 
#the IPv4 loopback interface address (this means Redis will be able to 
#accept connections only from clients running into the same computer it 
#is running). 

* 

*IF YOU ARE SURE YOU WANT YOUR INSTANCE TO LISTEN TO ALL THE INTERFACES 

# JUST COMMENT THE FOLLOWING LINE. 

* 

#bind 127.0.0.1 

bind 192.168.121.134 

# Protected mode is a layer of security protection, in order to avoid that 


*Redis instances left open on the internet are accessed and exploited. 


需要 注意 的 是 ,由 于 开启 Redis 的 远程 访问 ,因此 后 续 想 要 使 用 redis-cli 操作 Redis, 则 
需要 执行 redis-cli -h 192.168.121.134 -p 6379 命令 连接 Redis ,具体 如 下 : 


[user_redisenosql redis]$redis-cli -h 192.168.121.134 -p 6379 
192.168.121.134:6379» 


4. 启动 Redis 服务 


启动 Redis 服务 前 ,首先 应 关闭 之 前 启动 的 Redis 服务 ,然后 在 redis 目录 下 ,执行 
redis-server /opt/redis/redis.conf 命令 ,启动 新 的 Redis 服务 ,具体 如 下 : 


[user_redisenosql redis]Sredis- server /opt/servers/redis demo/redis/redis.conf 

4206:C 04 Mar 2020 02:06:50.859 #o000o000o000o Redis is starting o000o000o000o 

4206:C 04 Mar 2020 02:06:50.859 £Redis version-5.0.7, bits-64, commit- 00000000, 
modified-0, pid-4206, just started 

4206:C 04 Mar 2020 02:06:50.859 £Configuration loaded 


从 上 述 返回 结果 started 可 以 看 出 ,Redis 服务 启动 成 功 。 
75.2 操作 键 
1. 创建 Java 类 ,连接 Redis 


在 项 目 nosql_chapter07 目录 /src 下 创建 一 个 名 为 com.itcast.redis 的 包 , 并 在 该 包 下 
创建 TestKeyOperate.java 文件 ,该 文件 用 于 编写 Java 操作 Redis 键 的 代码 ,编写 Java 连接 
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Redis 数据 库 , 具 体 代码 如 文件 7-1 Bron 。 
文件 7-1 TestKeyOperate.java 


import org.junit.Test; 
import redis.clients.jedis.Jedis; 
import java.util.Iterator; 
import java.util.List; 
import java.util.Set; 
public class TestKeyOperate { 
private static Jedis jedis =new Jedis("192.168.121.134", 6379); 
public static void main(String[] args) ( 
System.out .println(" 服 务 启动 ..." +jedis.ping()); 
10 jedis.flushDB(); 


(0 - O0 OQ & Qt 


12 } 


在 上 述 代码 中 ,第 7 行 代码 声明 Jedis 成 员 对 象 , 用 于 提供 Redis 数据 库 连 接 ; 第 8 行 代 
码 是 一 个 main() 方 法 , 即 主 程序 入口 ;第 9 行 代码 jedis 调用 ping() 方 法 测试 是 否 连 接 到 
Redis 服务 ,若是 连接 成 功 , 则 输出 “服务 启动 ..PONG”?; 第 10 行 代码 通过 jedis 调用 
flushDB() 方 法 ,清空 Redis 数据 库 中 的 数据 。 

运行 文件 7-1 中 main() 方 法 ,然后 查看 IDEA 工具 的 控制 台 输出 ,效果 如 图 7-31 所 示 ; 
在 redis-cli 命令 行 中 执行 keys * 命令 ,查看 Redis 数据 库 中 的 数据 是 否 清空 ,效果 如 图 7-32 
所 示 。 


Run: TestKeyOperate & 一 
> + E:\servers\windows\Java\jdk\bin\java.exe ... 
mo) 服务 启动 ...PONG 


» | » | Process finished with exit code 9 
E 0; Messages BB Terminal i= 6 TODO Q Event Log 


A 7-31 测试 Redis 连接 


图 192.168.121.134 - SecureCRT eek) 
File Edit View Options Transfer Script Tools Window Help 


redis]$ re 
192:168:121.15426379- keys * 


192.168.121.134:6379» 


ssh2: AES-256-CTR. 4, 23 6Rows, 85 Cols VT100 


7-32 ”查看 Redis 数据 库 中 的 数据 


从 图 7-31 中 可 以 看 出 ,运行 main() 方 法 ,控制 台 输出 “服务 启动 ...PONG”, 因 此 说 明 我 
们 已 经 成 功 连接 到 Redis 数据 库 ; 从 图 7-32 中 可 以 看 出 ,执行 keys * 命令 后 ,返回 结果 为 
empty list or set, 则 说 明 我 们 已 经 清空 Redis 数据 库 中 的 数据 。 
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2. 为 指定 键 设置 值 


在 TestKeyOperate.java 文件 中 ,定义 一 个 setTest() 方 法 ,主要 用 于 演示 为 指定 键 设 置 
值 ,具体 代码 如 下 : 


1 @Test 

2 public void setTest() { 

$ String key -jedis.set("company", "itcast"); 
4 System.out.println(key):; 

5 l 


在 上 述 代码 中 ,第 3 行 代码 通过 Redis 数据 库 连 接 对 象 jedis 调用 set() 方 法 ,为 指定 键 
company 设置 值 itcast; 第 4 行 代码 打印 返回 结果 ,若是 返回 结果 为 OK , 则 说 明成 功 为 指定 
键 设置 值 。 

运行 setTest() 方 法 ,实现 为 指定 键 设置 值 .然后 查看 IDEA. 工具 的 控制 台 输 出 ,效果 如 
图 7-33 所 示 。 


b » v Tests passed: 1 of 1 test -6ms 


9 E E:\servers\windows\Java\jdk\bin\java.exe ... 个 

8| | % 4 

Process finished with exit code @ |» 

E Terminai PR = 6: T000 Q tvent Log 
图 7-33 为 指定 键 设置 值 的 结果 


从 图 7-33 中 可 以 看 出 ,控制 台 输 出 OK, 则 说 明 我 们 成 功 为 键 company 设置 了 值 为 


itcast。 
3. 为 多 个 键 设 置 值 


在 TestKeyOperate.java 文件 中 ,定义 一 个 msetTest() 方 法 ,主要 用 于 演示 为 多 个 键 设 
置 值 , 具 体 代 码 如 下 : 


1 erest 

2 public void msetTest() { 

3 String manyKey -jedis.mset("brandl", "heima", "brand2", "chuanzhihui", "brand3", 
4 "kudingyu", "brand4", "boxuegu", "brand5", "czzxxy", "brand6", "yuanxiaobang"):; 

5 System.out.println(manyKey); 

J 


在 上 述 代 码 中 ,第 3、4 行 代码 通过 Redis 数据 库 连接 对 象 jedis 调用 mset() 方 法 ,为 键 
brandl, brand2, brand3, brand4, brand5 和 brand6 4) 9| ix Ti ffi heima、chuanzhihui、 
kudingyu,boxuegu,czzxxy 和 yuanxiaobang; %5 5 行 代码 输出 返回 结果 ,若是 返回 结果 为 
OK , 则 说 明成 功 为 多 个 键 设置 值 。 

运行 msetTest () 方 法 ,实现 为 多 个 键 设置 值 , 然 后 查看 IDEA 工具 的 控制 台 输 出 ,效果 
如 图 7-34 所 示 。 
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b |» v Tests passed: 1 of 1 test - 5 ms 
9 ~ E: \servers\windows\Java\jdk\bin\java.exe ... 个 
9 | ok 


» Process finished with exit code 9 » 
E 0: Messages i Terminal P Runs E= 6 TODO Q Event Log 
图 7-34 为 多 个 键 设置 值 的 结果 


从 图 7-34 中 可 以 看 出 ,控制 台 输 出 OK , 则 说 明 我 们 成 功 为 键 brandl brand2, brand3, 
brand4 brand5 和 brand6 设置 了 值 。 


4. 查看 所 有 符合 给 定 模式 pattern( 正 则 表达 式 ) 的 键 


在 TestKeyOperatejava 文件 中 ,定义 一 个 keysTest() 方 法 ,主要 用 于 演示 查看 所 有 符 
合 给 定 模式 的 键 ,具体 代码 如 下 ， 


1 @Test 

2 public void keysTest() ( 

3 Set<String>keys -jedis.keys("* "); 

4 Iterator«String»itKeys -keys.iterator(); 
5 while (itKeys.hasNext())( 

6 String key -itKeys.next():; 

"i System.out.println(key); 

8 

3 


H 


在 上 述 代码 中 ,第 3、4 行 代码 通过 jedis 调用 keys() 方 法 ,传人 参数 " * ", 则 表示 查看 
Redis 数据 库 中 所 有 的 键 ; 第 4 行 代码 调用 iterator() 方 法 将 查 到 的 键 存放 到 一 个 迭代 器 中 ， 
第 5 一 7 行 代 码 遍历 并 输出 符合 给 定 模 式 的 键 。 

运行 keysTest () 方 法 ,实现 查看 Redis 数据 库 中 所 有 的 键 , 然 后 查看 IDEA 工具 的 控 
制 台 输出 ,效果 如 图 7-35 所 示 。 


b» v Tests passed: 1 of 1 test - 11 ms 

m ~ E:\servers\windows\Java\jdk\bin\java.exe ... 个 

I] brandé 4 

= brand5 5 
brand4 m 

a brand3 m 

$5 brand2 号 

3 brandi 下 

company 

E O: Messages Bi Termina OR = 6: T000 Q Event Log 


图 7-35 查看 Redis 数据 库 中 所 有 的 键 的 结果 


从 图 7-35 中 可 以 看 出 ,控制 台 输 出 7 个 键 ,其 中 键 brandl、brand2、brand3、brand4、 
brand5 以 及 brand6 是 运行 msetTest() 方 法 添加 的 ,而 键 company 是 运行 setTest O Hs 
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加 的 。 
5. 获取 多 个 键 的 对 应 值 
在 TestKeyOperate.java 文件 中 ,定义 一 个 mgetTest() 方 法 ,主要 用 于 演示 获取 多 个 键 


的 对 应 值 ,具体 代码 如 下 : 
1 @Test 
2 public void mgetTest() { 
3 List<String> values -jedis.mget("brandl", "brand3", "brand"); 
4 for (String value : values) ( 
5 System.out.println(value); 
6 5 
TL 


在 上 述 代码 中 ,第 3 行 代码 通过 Redis 数据 库 连 接 对 象 jedis 调用 mget() 方 法 ,用 于 获 
取 三 个 键 brandl .brand3 以 及 brand 的 值 ; 第 4.5 行 代码 通过 一 个 高 级 for 循环 ,遍历 并 输 
出 这 三 个 键 对 应 的 值 。 

运行 mgetTest () 方 法 ,实现 获取 多 个 键 的 对 应 值 ,然后 查看 IDEA 工具 的 控制 台 输 
出 ,效果 如 图 7-36 所 示 。 


be» «v Tests passed:1of1test-10ms 


Ə M| E:\servers\windows\Java\jdk\bin\java.exe ... t 
8 heima Y 
kudingyu -— 
null | x 
E O: Messages — BB Terminal i= & TODO. Q Event Log 


7-36 获取 多 个 键 的 对 应 值 的 结果 


从 图 7-36 中 可 以 看 出 ,控制 台 输出 三 个 键 的 对 应 值 ,分 别 是 heima, kudingyu 以 及 
null。 其 中 null 表示 键 brand 不 存在 ,因此 它 的 值 为 null。 


6. 判断 指定 键 是 否 存 在 


在 TestKeyOperate.java 文件 中 ,定义 一 个 existTest() 方 法 ,主要 用 于 演示 判断 指定 键 


是 否 存 在 ,具体 代码 如 下 : 
1 erest 
2 public void existTest() { 
3 Boolean resultl =jedis.exists ("company"); 
4 Boolean result2 -jedis.exists("brand0"); 
5 System.out.println(resulti-"------------ "4result2); 
Gy 


在 上 述 代码 中 ,第 3、4 行 代码 通过 Redis 数据 库 连 接 对 象 jedis 调用 exists() 方 法 ,用 于 
判断 键 company 和 brando 是 否 存在 ;第 5 行 代码 输出 判断 的 结果 ,若是 输出 true, 则 说 明 该 
键 存在 ;反之 输出 false, 则 说 明 该 键 不 存在 。 
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运行 existTest () 方 法 ,实现 判断 指定 键 是 否 存在 ,然后 查看 IDEA 工具 的 控制 台 输出 ， 
效果 如 图 7-37 所 示 。 


b" v Tests passed: 1 of 1 test - 7 ms 

» E: \servers\windows\Java\jdk\bin\java.exe ... | 1 

n true------------ false 4 
Process finished with exit code @ 

E Mesage Boos MERR = -T000 cE 


7-37 判断 指定 键 是 否 存在 的 结果 


从 图 7-37 中 可 以 看 出 ,控制 台 输 出 的 结果 为 true 和 false, 因 此 说 明 键 company 存在 ， 
而 键 brand0 不 存在 。 


7. 修改 指定 键 的 名 称 


在 TestKeyOperate.java 文件 中 ,定义 一 个 renameTest() 方 法 ,主要 用 于 演示 修改 指定 
键 的 名 称 , 具 体 代码 如 下 : 


@Test 


public void renameTest() { 


qm 
2 
3 String rename -jedis.rename("company", "companyNew"); 
4 System.out.println(rename); 

5 


) 


在 上 述 代码 中 ,第 3 行 代码 通过 Redis 数据 库 连 接 对 象 jedis 调用 rename() 方 法 ,用 于 
将 键 company 的 名 称 修改 为 companyNew; 第 4 行 代 码 输出 返回 的 结果 ,若是 输出 OK , 则 
说 明 修改 键 名 成 功 。 

运行 renameTest() 方 法 ,实现 修改 指定 键 的 名 称 ;再 运行 keysTest () 方 法 ,查看 键 
company 的 名 称 是 否 修改 成 功 ,然后 查看 IDEA 工具 的 控制 台 输 出 ,效果 如 图 7-38 所 示 。 


» v Tests passed: 1 of 1 test - 9 ms 


> 

ƏM E:\servers\windows\Java\jdk\bin\java.exe ... 个 

8 brandé 5 

s brand5 5 
brand4 ES 
brands ves 

f brand2 * 

3 brandi " 

" companyNew 

CIS S = oo Gem 


7-38 修改 指定 键 的 名 称 的 结果 


从 图 7-38 中 可 以 看 出 ,控制 台 出 现 了 名 称 为 companyNew 的 键 ,因此 说 明 键 company 
的 名 称 修改 成 功 。 


8. 删除 指定 键 
在 TestKeyOperate.java 文件 中 .定义 一 个 delTest() 方 法 ,用 于 删除 指定 键 ,具体 代码 
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如 下 : 


@Test 
public void delTest() { 


T 
2 
3 Long result =jedis.del ("companyNew"); 
4 System.out.println(result); 

5 


j 


在 上 述 代码 中 ,第 3 行 代码 通过 jedis 调用 del() 方 法 ,用 于 删除 键 companyNew; 第 4 
行 代码 打印 输出 返回 的 结果 ,若是 输出 1, 则 说 明 删 除 成 功 。 

运行 delTest () 方 法 ,删除 指定 键 ;再 运行 keysTest () 方 法 ,查看 键 companyNew 是 否 
删除 成 功 ,然后 查看 IDEA. 工具 的 控制 台 输 出 ,效果 如 图 7-39 所 示 。 


P |» v Tests passed: 1 of 1 test - 11 ms 


E:\servers\windows\Java\jdk\bin\java.exe ... 
brandé 
brands 
brand4 
brand3 
brand2 
brandi 
B8 Terminal 


w d igo é > 


图 7-39 删除 指定 键 的 结果 


从 图 7-39 中 可 以 看 出 ,控制 台 没 有 出 现 键 companyNew, 因 此 说 明成 功 删除 键 


companyNew。 


7.5.3 操作 字符 串 
1. 创建 Java 类 ,连接 Redis 


在 项 目 nosql_chapter07 中 的 com.itcast.redis 包 下 创建 TestStringOperate.java 文件 ， 
该 文件 用 于 编写 Java 操作 Redis 字符 串 的 代码 ,编写 Java 连接 Redis 数据 库 的 代码 ,具体 
代码 如 文件 7-2 所 示 。 
文件 7-2 TestStringOperate.java 


import org.junit.Test; 
import redis.clients.jedis.Jedis; 
public class TestStringOperate { 
private static Jedis jedis =new Jedis("192.168.121.134", 6379); 
public static void main(String[] args) ( 
System.out .println(" 服 务 启 动 ..." +jedis.ping()); 


ce - o c uNe 


2. 获取 指定 字符 串 键 的 旧 值 并 设置 新 值 
在 TestStringOperate.java 文件 中 ,定义 一 个 getsetTest() 方 法 ,用 于 获取 指定 字符 串 


BTE 键 值 对 存储 数据 库 Redis 


键 的 旧 值 并 设置 新 值 , 具 体 代 码 如 下 : 


gTest 
public void getsetTest() ( 


T 
2 
3 String oldValue -jedis.getSet("brandl", "itcast"); 
4 System.out.println(oldValue); 

5 


} 


在 上 述 代码 中 ,第 3 行 代码 通过 Redis 数据 库 连 接 对 象 jedis 调用 getSet() 方 法 ,用 于 
获取 键 brandl 的 值 , 并 将 该 值 设置 为 itcast; 第 4 行 代 码 输出 键 brandl BS IH f 

运行 getSet () 方 法 ,获取 指定 字符 串 键 的 旧 值 并 设置 新 值 ,然后 查看 IDEA 工具 的 控 
制 台 输出 ,效果 如 图 7-40 所 示 。 


Pb » v Tests passed: 1 of 1 test -6ms 


8 heima 


3 司 E:\servers\windows\Java\jdk\bin\java.exe -ea -Didea.test.cyclic.buffer.s| 个 
| v 
| 
| 


Process finished with exit code 9 


E 0: Messages — [iB Terminal = 6: TODO Q Event Log 


图 7-40 获取 指定 字符 串 键 的 旧 值 并 设置 新 值 的 结果 


从 图 7-40 中 可 以 看 出 ,控制 台 输出 heima, 该 值 为 键 brandl 的 旧 值 。 

3. 获取 指定 字符 串 键 的 值 的 长 度 

在 TestStringOperate.java 文件 中 ,定义 一 个 strlenTest () 方 法 ,用 于 获取 指定 字符 串 
键 的 值 的 长 度 ,具体 代码 如 下 : 


@Test 
public void strlenTest() { 


H 
2 
x] Long valueLen -jedis.strlen("brand6"); 
4 System.out.println(valueLen); 

5 


) 


在 上 述 代 码 中 ,第 3 行 代 码 通过 Redis 数据 库 连 接 对 象 jedis 调用 strlen () 方 法 ,获取 
键 brand6 的 值 的 长 度 ; 第 4 行 代码 输出 键 brand6 的 值 的 长 度 。 

运行 strlenTest () 方 法 ,获取 指定 字符 串 键 的 值 的 长 度 , 然 后 查看 IDEA 工具 的 控制 台 
输出 ,效果 如 图 7-41 Bron o 


b » v Testspassed:1of]test-6ms 
x | | E:\servers\windows\Java\jdk\bin\java.exe ... 个 
n 12 


Process finished with exit code e 
三 0: Messages — BM Terminal 三 6&:TODO Q Event Log. 


7-41 获取 指定 字符 串 键 的 值 的 长 度 
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从 图 7-41 中 可 以 看 出 ,控制 台 输出 12 ,说 明 键 brand6 的 值 的 长 度 为 12 。 
4. 获取 字符 串 键 指定 索引 范围 的 值 内 容 


在 TestStringOperate.java 文件 中 ,定义 一 个 getrangeTest() 方 法 ,用 于 获取 字符 串 键 
指定 索引 范围 的 值 内 容 , 具 体 代码 如 下 : 


@Test 
public void getrangeTest() { 


aL 
2 
2 String value -jedis.getrange ("brand6", 4, 7); 
4 System.out.println(value); 

5 


) 


在 上 述 代码 中 ,第 3 行 代码 通过 Redis 数据 库 连 接 对 象 jedis 调用 getrange () 方 法 ,用 
于 获取 键 brand6 中 索引 范围 为 L4,7] 的 值 内 容 ; 第 4 行 代码 输出 键 brande 中 索引 范围 为 
[4,7] 的 值 内 容 。 

运行 getrangeTest () 方 法 ,获取 字符 串 键 指定 索引 范围 的 值 内 容 ,然后 查看 IDEA T. 
具 的 控制 台 输 出 ,效果 如 图 7-42 所 示 。 


b) » v Tests passed: 1 of 1 test-5ms 
9 W| E:\servers\windows\Java\jdk\bin\java.exe ... 
8 xiao 


Process finished with exit code 9 
E O: Messages — [I Terminal 


图 7-42 ÆA Redis 数据 库 中 所 有 的 键 的 结果 
从 图 7-42 中 可 以 看 出 ,控制 台 输 出 的 值 内 容 为 xiao, 该 值 是 键 brand6 在 索引 范围 为 
[4,7] 的 内 容 。 
5. 在 指定 字符 串 键 的 值 末尾 追加 新 内 容 


在 TestStringOperate.java 文件 中 ,定义 一 个 appendTest() 方 法 ,用 于 在 指定 字符 串 键 
的 值 末尾 追加 新 内 容 , 具 体 代码 如 下 : 


@Test 
public void appendTest() { 


J: 
E 
3. Long len -jedis.append("brandl", "heima"); 
4 System.out.println(len); 

5 


} 


在 上 述 代码 中 ,第 3 行 代码 通过 Redis 数据 库 连 接 对 象 jedis 调用 append () 方 法 ,用 于 
在 键 brandl 的 值 末尾 追加 新 内 容 heima; 第 4 行 代 码 输出 键 brandl 的 值 的 长 度 。 

运行 appendTest () 方 法 ,在 指定 字符 串 键 的 值 末尾 追加 新 内 容 , 然 后 查看 IDEA 工具 
的 控制 台 输 出 ,效果 如 图 7-43 所 示 。 

从 图 7-43 中 可 以 看 出 ,控制 台 输出 内 容 为 11,11 表示 的 是 键 brandl 追加 新 内 容 后 的 
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P |» wv Tests passed: 1 of 1 test —7 ms 


) x] E:\servers\windows\Java\jdk\bin\java.exe ... 
HH 11 
il 


» Process finished with exit code 6 
E O: Messages W Terminal {= & TODO 


Q Event Log 


E 7-43 $ brandi 的 值 的 长 度 
长 度 。 
7.5.4 操作 列表 
1. 创建 Java 类 ,连接 Redis 


在 项 目 nosql. chapter07 中 的 com.itcast.redis 包 下 创建 TestListOperate.java 文件 ,该 
文件 用 于 编写 Java 操作 Redis 列表 的 代码 ,编写 Java 连接 Redis 数据 库 的 代码 ,具体 代码 


如 文件 7-3 所 示 。 
文件 7-3  TestListOperate.java 


import org.junit.Test; 

import redis.clients.jedis.Jedis; 
import java.util.List; 

public class TestListOperate ( 


public static void main(String[] args) ( 
System.out .println(" 服 务 启动 ..." +jedis.ping()); 


ownaonmwnb P 


2. 将 一 个 或 多 个 元 素 推 入 到 列表 中 


private static Jedis jedis =new Jedis("192.168.121.134", 6379); 


在 TestListOperate.java 文件 中 ,定义 一 个 rpushAndLpushTest () 方 法 ,用 于 将 一 个 或 


多 个 元 素 推 人 到 列表 中 ,具体 代码 如 下 : 


GTest 
public void rpushAndLpushTest () ( 
// 将 5 个 元 素 推 人 列表 color 的 右 端 


Long rpush -jedis.rpush("color", "blue", "green", "purple", "red", "white"); 


Long lpush -jedis.lpush("color", "black", pink"); 
System.out.println(rpush-*"----— "*lpush); 


ai 
2 
3 
4 
5 // 将 2 个 元 素 推 人 列表 color 的 左 端 
6 
8 


) 


在 上 述 代码 中 ,第 4 行 代码 通过 Redis 数据 库 连接 对 象 jedis 调用 


rpush () 方 法 ,用 于 


将 元 素 blue、green、purple、red、white 推 人 列表 color 的 右 端 ,并 返回 键 color 中 元 素 的 个 
数 ; 第 6 行 代码 通过 jedis 调用 lpush () 方 法 ,用 于 将 元 素 black, pink 推 人 列表 color 的 左 


255 


256. NoSQL 数据 库 技 术 与 应 用 


端 ,并 返回 键 color 中 元 素 的 个 数 :第 7 行 代 码 输出 键 color 的 长 度 。 
运行 rpushAndLpushTest () 方 法 ,将 一 个 或 多 个 元 素 推 人 到 列表 中 ,然后 查看 IDEA 
工具 的 控制 台 输 出 ,效果 如 图 7-44 所 示 。 


pb » v Tests passed: 1 of 1 test -6ms 


) ~ E: \servers\windows\Java\jdk\bin\java.exe ... 个 


Process finished with exit code 9 » 
三 0: Messages W Terminal. b ERN = 6 TODO Q Event Log 
图 7-44 获取 指定 字符 串 键 的 旧 值 并 设置 新 值 的 结果 


从 图 7-44 中 可 以 看 出 ,控制 台 输出 的 第 一 个 结果 为 5, 即 说 明成 功 将 5 个 元 素 推 人 列表 
color 中 ;第 二 个 结果 为 7, 则 此 时 列表 color 的 长 度 为 7, 说 明成 功 将 元 素 推 人 到 color 中 。 


3. 获取 列表 指定 索引 范围 内 的 元 素 
在 TestListOperate.java 文件 中 ,定义 一 个 lrangeTest () 方 法 ,用 于 获取 列表 指定 索引 


范围 内 的 元 素 , 具 体 代 码 如 下 : 
1 @Test 
2 public void lrangeTest (){ 
3 List«String» values -jedis.lrange("color", 0, 6); 
4 for (String value : values) ( 
5 System.out.println(value); 
6 b 
To 


在 上 述 代 码 中 ,第 3 行 代码 通过 Redis 数据 库 连 接 对 象 jedis 调用 lrange () 方 法 ,用 于 
获取 列表 color 索引 范围 为 [0,6] 的 元 素 ; 第 4,5 行 代 码 通过 一 个 高 级 for 循环 ,遍历 输出 列 
K color 中 索引 范围 在 [0.6] 的 元 素 。 

运行 lrangeTest () 方 法 ,获取 列表 指定 索引 范围 内 的 元 素 , 然 后 查看 IDEA 工具 的 控制 
台 输 出 ,效果 如 图 7-45 Bran o 


b |» vw Tests passed: 1 of 1 test - 9 ms 

9 [ | E:\servers\windows\Java\jdk\bin\java.exe ... ^ 

8 pink 14 

= black = 
blue 5 b 

a z 
green 

5 purple * 

3 red " 

» white 

E 0: Messages W Terminal ETE 18 6: TODO Q Event Log. 


7-45 ”获取 列表 color 中 索引 范围 在 [0,6j] 之 间 的 元 素 


从 图 7-45 中 可 以 看 出 ,列表 color 中 索引 范围 在 L0,6j 之 间 的 元 素 有 7 个 ,也 就 是 列表 
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color 中 的 所 有 元 素 ,分别 是 元 素 pink black, blue,.green,purple,red, white, PIC% blue, 
green, purple,red , white 是 推 人 到 列表 color 的 右 端 ,元 素 black, pink 推 人 到 列表 color 的 
左 端 。 


4. 获取 列表 指定 索引 位 置 上 的 元 素 


在 TestListOperate.java 文件 中 ,定义 一 个 lindexTest () 方 法 ,用 于 获取 列表 指定 索引 
位 置 上 的 元 素 , 具 体 代码 如 下 : 


1 @Test 

2 public void lindexTest() ( 

3 String value -jedis.lindex("color", 5); 
4 System.out.println(value); 

5 


) 


在 上 述 代 码 中 ,第 3 行 代码 通过 Redis 数据 库 连 接 对 象 jedis 调用 lindex () 方 法 ,用 于 
获取 列表 color 中 索引 为 5 的 元 素 ;第 4 行 代码 通过 遍历 并 输出 列表 color 中 索引 为 5 的 

运行 lindexTest () 方 法 ,获取 列表 指定 索引 位 置 上 的 元 素 , 然 后 查看 IDEA 工具 的 控制 
台 输 出 ,效果 如 图 7-46 所 示 。 


b» v Testspassed:1of1test-6ms 
S | | E:\servers\windows\Java\jdk\bin\java.exe ... 个 
2 red 4 


» Process finished with exit code @ » 
Z Q: Messages E Terminal = 6: TODO Q Event Log 


图 7-46 获取 列表 指定 索引 位 置 上 的 元 素 
从 图 7-46 中 可 以 看 出 ,列表 color 中 索引 为 5 的 元 素 是 red, 
5. 移 除 列表 最 左 端的 元 素 


在 TestListOperate.java 文件 中 ,定义 一 个 IpopTest () 方 法 ,用 于 移 除 列 表 最 左 端的 元 
素 , 具 体 代 码 如 下 : 


1 Test 

2 public void lpopTest (){ 

3 String value -jedis.lpop("color"); 
4 System.out.println(value); 

Su 


在 上 述 代码 中 ,第 3 行 代码 通过 Redis 数据 库 连 接 对 象 jedis 调用 lpop () 方 法 ,用 于 移 
除 列表 color 最 左 端的 元 素 ;第 4 行 代 码 输出 列表 color 中 刚刚 移 除 的 元 素 。 

运行 lpop () 方 法 . 移 除 列表 最 左 端的 元 素 , 查 看 IDEA. 工具 的 控制 台 输 出 ,如 图 7-47 
所 示 ;再 运行 lrangeTest() 方 法 ,查看 列表 color 最 左 端的 元 素 是 否 被 移 除 .如 图 7-48 所 示 o 
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b) » v Tests passed: 1 of 1 test - 6 ms 


3 司 E:\servers\windows\Java\jdk\bin\java.exe ... 个 
g pink 4 


Process finished with exit code @ » 
E Terminai ERA = 6: T000 = Q Messages Q Event Log 


A 7-47 列表 color 中 最 左 端的 元 素 


> » wv Tests passed: 1 of ltest-17 ms 


内因 E:NserversWindowsMJavaVjdkNbinVjava.exe ... T 
8 black T 

blue ES 
fi 3 

green iE 
a purple zd 
5 red * 
»| | white L] 
EA Terminal ITIN 3286 TODO E 0: Messages Event Log. 


7-48 列表 color 中 的 所 有 元 素 


从 图 7-47 中 可 以 看 出 ,列表 color 最 左 端的 元 素 是 pink; 从 图 7-48 中 可 以 看 出 ,列表 
color 中 已 经 不 存在 元 素 pink, 则 说 明 列表 color 最 左 端的 元 素 已 经 被 成 功 移 除 。 


6. 获取 列表 中 元 素 的 个 数 


在 TestListOperate.java 文件 中 ,定义 一 个 llenTest () 方 法 ,用 于 获取 列表 中 元 素 的 个 
数 ,具体 代码 如 下 : 


1 @Test 

2 public void llenTest (){ 

3 Long len -jedis.llen("color"); 
4 System.out.println(len); 

5 } 


在 上 述 代码 中 ,第 3 行 代码 通过 Redis 数据 库 连 接 对 象 jedis 调用 llen () 方 法 ,用 于 获 
取 列 表 color 中 元 素 的 个 数 ;第 4 行 代码 输出 列表 color 中 元 素 的 个 数 。 

运行 lenTest () 方 法 ,获取 列表 color 中 元 素 的 个 数 ,查看 IDEA. 工具 的 控制 台 输 出 效 
果 , 如 图 7-49 所 示 。 


Pb |» w Tests passed: 1 of 1 test -6ms 


5 E:\servers\windows\Java\jdk\bin\java.exe ... T 
8 6 4 


» Process finished with exit code 8 » 
E Terminal Rn Æ 6&TODO Æ Q: Messages Q Event Log 


7-49 列表 color 中 元 素 的 个 数 


从 图 7-49 中 可 以 看 出 ,列表 color 中 元 素 的 个 数 为 6, 则 说 明 列 表 color 中 有 6 个 元 素 。 
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7. 移 除 列 表 中 的 指定 元 素 


在 TestListOperate.java 文件 中 ,定义 一 个 lremTest () 方 法 ,用 于 移 除 列表 中 的 指定 元 
素 , 具 体 代码 如 下 : 


1 @Test 

2 public void lremTest ()( 

3 Long result —-jedis.lrem("color", 1, "red"); 
4 System.out.println(result); 

5 上) 


在 上 述 代码 中 ,第 3 行 代码 通过 Redis 数据 库 连 接 对 象 jedis 调用 lrem() 方 法 ,用 于 从 
列表 color 的 表 头 开始 向 表 尾 搜索 , 移 除 搜索 到 的 第 一 个 值 为 red 的 元 素 ;第 4 行 代码 输出 
返回 的 结果 ,车 结果 为 1, 则 说 明 移 除 成 功 。 

运行 lremTest () 方 法 , 移 除 列表 中 的 指定 元 素 , 查 看 IDEA 工具 的 控制 台 输出 效果 ,如 
图 7-50 所 示 ; 再 运行 lrangeTest() 方 法 ,查看 列表 color 中 第 一 次 出 现 的 值 为 red 的 元 素 是 
fS CES DR ,具体 如 图 7-51 所 示 。 


> 
oE E:\servers\windows\Java\jdk\bin\java.exe Sas | m 个 


8 1 4 


» W Tests passed: 1 of 1 test- 5 ms 


Process finished with exit code 6 » 
国 Terminal Æ TODO — E Q Messages 


A 7-50 移 除 列表 中 的 指定 元 素 


b » v Tests passed: 1 of 1 test - 18ms 
3 ~| E:\servers\windows\Java\jdk\bin\java.exe ... 


个 
8 black n 
blue - 
" E 
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7-51 列表 color 中 所 有 的 元 素 


从 图 7-50 中 可 以 看 出 ,控制 台 输 出 为 1 证 明 列表 color 中 第 一 次 出 现 的 元 素 red 已 经 
被 移 除 ;从 图 7-51 中 可 以 看 出 ,列表 color 中 不 存在 元 素 red, 则 说 明 第 一 次 出 现 的 元 素 red 
已 经 被 成 功 移 除 。 


755 操作 集合 
1. 创建 Java 类 .连接 Redis 


在 项 目 nosql_chapter07 中 的 com.itcast.redis 包 下 创建 TestSetOperate.java 文件 ,该 
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文件 用 于 编写 Java 操作 Redis 集合 的 代码 ,编写 Java 连接 Redis 数据 库 的 代码 ,具体 代码 
如 文件 7-4 所 示 。 


€ oc - O0 Oc & Ut» 


2. 


文件 7-4 TestSetOperate.java 


import org.junit.Test; 
import redis.clients.jedis.Jedis; 
import java.util.Iterator; 
import java.util.Set; 
public class TestSetOperate { 
private static Jedis jedis =new Jedis("192.168.121.134", 6379); 
public static void main(String[] args) ( 
System.out .println(" 服 务 启动 ..." +jedis.ping()); 
5 


将 一 个 或 多 个 元 素 添加 到 集合 中 


在 TestSetOperate.java 文件 中 ,定义 一 个 saddTest () 方 法 ,用 于 将 一 个 或 多 个 元 素 添 
加 到 集合 中 ,具体 代码 如 下 : 


GTest 

public void saddTest()( 
Long result -jedis.sadd("databases", "redis", "mongodb", "hbase"); 
System.out.println(result); 


} 


在 上 述 代 码 中 ,第 3 行 代码 通过 Redis 数据 库 连 接 对 象 jedis 调用 sadd () 方 法 ,用 于 将 
元 素 redis, mongodb ,hbase 添加 到 集合 databases 中 ;第 4 行 代码 输出 返回 的 结果 ,车 返回 
结果 为 3, 则 说 明成 功 将 三 个 元 素 添加 到 集合 databases H., 

运行 saddTest () 方 法 ,将 一 个 或 多 个 元 素 添加 到 集合 中 ,然后 查看 IDEA 工具 的 控制 
台 输 出 ,效果 如 图 7-52 所 示 。 


b > v Tests passed: 1 of ltest-7ms 


Ə *| E:\servers\windows\Java\jdk\bin\java.exe ... 


3 
» Process finished with exit code e » 
E Terminal PgR Æ 6&TODO Æ 0 Messages Q Event Log 


图 7-52 打印 输出 返回 结果 


从 图 7-52 中 可 以 看 出 ,集合 databases 中 已 经 成 功 添 加 三 个 元 素 。 


3. 


获取 集合 中 的 元 素数 量 


在 TestSetOperate.java 文件 中 ,定义 一 个 scardTest () 方 法 ,用 于 获取 集合 中 的 元 素数 
量 , 具 体 代 码 如 下 : 
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@Test 
public void scardTest () { 


il 
2 
3 Long num -jedis.scard("databases"); 
4 System.out.println (num); 

5 


} 


在 上 述 代码 中 ,第 3 行 代码 通过 Redis 数据 库 连 接 对 象 jedis 调用 scard () 方 法 ,用 于 获 
取 集 合 databases 中 元 素 的 数量 ;第 4 行 代码 输出 元 素 的 数量 。 

运行 scardTest () 方 法 ,获取 集合 中 的 元 素数 量 , 然 后 查看 IDEA 工具 的 控制 台 输出 ， 
效果 如 图 7-53 所 示 。 


> >» v Tests passed: 1 of 1 test -6ms 
Ə *| E:\servers\windows\Java\jdk\bin\java.exe ... ^ 
8 |3 4 
Process finished with exit code @ » 
E Terminal bern Æ 6:TODO E Q: Messages Q Event Log 
7-53 “元素 数量 


从 图 7-53 中 可 以 看 出 ,集合 databases 中 一 共有 三 个 元 素 , 即 元 素 redis、mongodb、 


hbase。 


4. 获取 集合 中 的 所 有 元 素 


在 TestSetOperate.java 文件 中 ,定义 一 个 smembersTest () 方 法 ,用 于 获取 集合 中 的 所 
有 元 素 ,具体 代码 如 下 : 


1 @Test 

2 public void smembersTest () { 

3 Set<String>databases =jedis.smembers("databases"); 
4 Iterator<String>database =databases.iterator(); 

5 while (database.hasNext())í 

6 String db -database.next(); 

7 System.out.println(db); 

8 

3 


在 上 述 代码 中 ,第 3 行 代码 通过 Redis 数据 库 连 接 对 象 jedis 调用 smembers () 方 法 ,用 
于 获取 集合 中 的 所 有 元 素 ; 第 4 行 代码 调用 iterator() 方 法 将 获取 的 所 有 元 素 存放 到 一 个 迭 
代 器 中 ;第 5~7 行 代码 遍历 并 输出 所 有 的 元 素 。 

运行 smembersTest () 方 法 ,获取 集合 中 的 所 有 元 素 .然后 查看 IDEA 工具 的 控制 台 输 
出 ,效果 如 图 7-54 所 示 。 

从 图 7-54 中 可 以 看 出 ,集合 databases 包含 的 元 素 有 redis、mongodb 和 hbase. 


5. 检查 指定 元 素 是 否 存在 于 集合 中 
在 TestSetOperate.java 文件 中 ,定义 一 个 sismemberTest () 方 法 ,用 于 检查 指定 元 素 
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Pb |» v Tests passed: 1 of 1 test - 11 ms 

) | E:Nservers Windows VJava V jdkNbin java. exe m 个 

8 redis 4 
mongodb 3 

T hbase s 

E Terminal OP Rn Æ &TODO Œ Q Messages Q Event Log 


图 7-54 集合 databases 中 的 所 有 元 素 
是 否 存 在 于 集合 中 ,具体 代码 如 下 : 


@Test 
public void sismemberTest() { 


aL 
D 
3 Boolean result -jedis.sismember("databases", "redis"); 
4 System.out.println(result); 

5 


} 


在 上 述 代码 中 ,第 3 行 代码 通过 Redis 数据 库 连 接 对 象 jedis 调用 sismember () 方 法 ， 
用 于 检查 元 素 redis 是 否 存在 于 集合 databases 中 ;第 4 行 代 码 输 出 检查 的 结果 , 若 结果 为 
true, 则 说 明 该 元 素 存 在 ,反之 不 存在 。 

运行 sismemberTest () 方 法 ,检查 指定 元 素 是 否 存 在 于 集合 中 ,然后 查看 IDEA 工具 的 
控制 台 输出 ,效果 如 图 7-55 所 示 。 


P » w Tests passed: 1 of 1 rest-5ms 


Ə ~ E:\servers\windows\Java\jdk\bin\java.exe ... 
8 true 


» Process finished with exit code 6 


B8 Terminal E &TODO E Q Messages 


A 7-55 检查 结果 
从 图 7-55 中 可 以 看 出 ,集合 databases 中 存在 元 素 redis。 
6. 移 除 集合 中 的 一 个 或 多 个 已 存在 的 元 素 


在 TestSetOperate.java 文件 中 ,定义 一 个 sremTest () 方 法 ,用 于 移 除 集合 中 的 一 个 或 
多 个 已 存在 的 元 素 , 具 体 代 码 如 下 : 


1 Test 

2 public void sremTest() { 

3 Long result =jedis.srem("databases", "hbase"); 
4 System.out.println(result); 

5 ) 


在 上 述 代码 中 ,第 3 行 代码 通过 Redis 数据 库 连 接 对 象 jedis 调用 srem () 方 法 ,用 于 移 
除 集合 databases 中 的 元 素 hbase; 第 4 行 代 码 输出 移 除 的 结果 , 若 结果 为 1, 则 说 明 移 除 
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成 功 。 

运行 sremTest () 方 法 , 移 除 集合 中 的 一 个 或 多 个 已 存在 的 元 素 , 并 运行 
smembersTest() 方 法 ,查看 元 素 hbase 是 否 被 移 除 ,然后 查看 IDEA 工具 的 控制 台 输 出 , 效 
果 如 图 7-56 所 示 。 


Pb » v Testspassed:1of1test-12ms 


E:\servers\windows\Java\jdk\bin\java.exe ... 
mongodb 


redis 


图 7-56 ”集合 databases 中 的 所 有 元 素 


从 图 7-56 中 可 以 看 出 ,集合 databases 中 已 经 不 存在 元 素 hbase, 因 此 ,说 明 元 素 hbase 
已 经 被 移 除 。 


7.5.6 操作 散 列 
1. 创建 Java 类 ,连接 Redis 


在 项 目 nosql_chapter07 中 的 com.itcast.redis 包 下 创建 TestHashOperate.java 文件 ， 
该 文件 用 于 编写 Java 操作 Redis 散 列 的 代码 ,编写 Java 连接 Redis 数据 库 的 代码 ,具体 代 
码 如 文件 7-5 所 示 。 


文件 7-5 TestHashOperate.java 


2. 为 散 列 中 多 个 键 设置 值 


在 TestHashOperate.java 文件 中 ,定义 一 个 hmsetTest () 方 法 ,主要 用 于 演示 为 散 列 
中 多 个 键 设置 值 ,具体 代码 如 下 : 
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在 上 述 代码 中 ,第 3 行 代 码 通过 创建 一 个 map 集合 ,用 于 存放 键 与 其 设置 的 值 ; 第 4、5 
行 代 码 调用 map 集合 的 put () 方 法 .用 于 为 散 列 中 的 键 content 和 author 分 别 设置 值 hello 
world 和 peter; 第 6 行 代码 调用 Redis 数据 库 连 接 对 象 jedis 的 hmset() 方 法 ,用 于 将 键 和 
对 应 的 值 传人 到 散 列 article 中 ;第 7 行 代码 输出 返回 的 结果 , 若 返回 结果 为 OK, 则 说 明成 
功 为 键 content 和 author 设置 值 。 

运行 hmsetTest () 方 法 ,实现 为 散 列 中 多 个 键 设置 值 ,然后 查看 IDEA 工具 的 控制 台 输 
出 ,效果 如 图 7-57 所 示 。 


b) » v Tests passed: 1 of 1 test - 5 ms 


) 司 E:\servers\windows\Java\jdk\bin\java.exe ... 


$ | o 


Process finished with exit code 6 


» 
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7-57 打印 输出 返回 结果 


从 图 7-57 中 可 以 看 出 ,已 经 成 功 为 散 列 article 中 的 键 content 和 author 设置 值 。 
3. 获取 散 列 中 的 所 有 键 值 对 


在 TestHashOperate.java 文件 中 ,定义 一 个 hgetallTest () 方 法 ,用 于 获取 散 列 中 的 所 
有 键 值 对 ,具体 代码 如 下 : 


1 @Test 

2 public void hgetallTest()( 

3 Map«String, String»map -jedis.hgetAll("article"); 

4 Set«Map.Entry«String, String»»set -map.entrySet(); 

3 Iterator«Map.Entry«String, String»»iterator -set.iterator(); 
6 while (iterator.hasNext())í 

了 Map.Entry«String, String»keyVal -iterator.next(); 

8 System.out.println(keyVal); 

9 t 


To 


在 上 述 代码 中 ,第 3 行 代 码 通过 Redis 数据 库 连 接 对 象 jedis 调用 hgetAll () 方 法 ,用 于 
获取 散 列 中 的 所 有 键 值 对 ;第 4.5 行 代码 通过 map 对 象 和 set 对 象 分 别 调用 entrySet() 和 
set 对 象 的 iterator() 方 法 ,用 于 将 获取 到 的 键 值 对 存放 到 一 个 迭代 器 中 ;第 6-8 行 代码 通 
过 遍历 输出 散 列 article 中 的 所 有 键 值 对 。 

运行 hgetallTest () 方 法 ,实现 获取 散 列 中 的 所 有 键 值 对 ,然后 查看 IDEA 工具 的 控制 
台 输 出 ,效果 如 图 7-58 Bron o 

从 图 7-58 中 可 以 看 出 , 散 列 article 中 共有 两 个 键 值 对 , 即 键 author 和 对 应 值 peter, f£ 
content 和 对 应 值 world. 
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P)» |» v Tests passed: 1 of 1 test -9 ms 
3 男 E:\servers\windows\Java\jdk\bin\java.exe ... 
8 author= Peter 

content=hello world 


» » 
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7-58 ”遍历 输出 散 列 article 中 的 所 有 键 值 对 


Y 


4. 获取 散 列 中 的 所 有 键 


在 TestHashOperate.java 文件 中 ,定义 一 个 hkeysTest () 方 法 ,主要 用 于 演示 获取 散 列 
中 的 所 有 键 ,具体 代码 如 下 : 


1 @Test 

2 public void hkeysTest(){ 

3 Set«String»keys -jedis.hkeys("article"); 

4 Iterator«String»iterator -keys.iterator(); 
5 while (iterator.hasNext())( 

6 String key -iterator.next(); 

T System.out.println(key); 

8 

9 


} 


在 上 述 代码 中 ,第 3 行 代码 通过 jedis 对 象 调用 hkeys () 方 法 ,用 于 获取 散 列 中 的 所 有 
键 ; 第 4 行 代码 通过 键 集合 keys 调用 iterator() 方 法 ,用 于 将 获取 的 键 存 放 到 一 个 授 代 器 
中 ;第 6-8 行 代码 通过 遍历 输出 散 列 article 中 所 有 的 键 。 

运行 hkeysTest () 方 法 ,获取 散 列 中 所 有 的 键 , 然 后 查看 IDEA. 工具 的 控制 台 输出 , 效 
果 如 图 7-59 所 示 。 


> » wv Tests passed: 1 of 1 test - 11 ms 

3 ~ E:\servers\windows\Java\jdk\bin\java.exe ... 个 
author ^s 
» content 5 
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7-89 遍历 输出 散 列 article 中 所 有 的 键 
从 图 7-59 中 可 以 看 出 , 散 列 article 中 共有 两 个 键 , 即 键 author 和 content, 
5. 获取 散 列 中 所 有 键 的 值 


在 TestHashOperate.java 文件 中 ,定义 一 个 hvalsTest () 方 法 ,用 于 获取 散 列 中 的 所 有 
键 的 值 , 具 体 代 码 如 下 : 


1 Test 
2 public void hvalsTest()( 
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3 List«String»vals -jedis.hvals("article"); 
4 for (String val : vals) { 
5 System.out.println(val); 
6 } 
T RE 


在 上 述 代 码 中 ,第 3 行 代码 通过 jedis 对 象 调 用 hvals () 方 法 ,用 于 获取 散 列 中 的 所 有 
键 的 值 ; 第 4.5 行 代码 通过 一 个 高 级 for 循环 ,遍历 输出 散 列 article 中 所 有 键 的 值 。 

运行 hvalsTest () 方 法 ,实现 获取 散 列 中 所 有 键 的 值 ,然后 查看 IDEA. 工具 的 控制 台 输 
出 ,效果 如 图 7-60 所 示 。 


P » v Tests passed: 1 of 1 test - 10 ms 


j9 w| E:\servers\windows\Java\jdk\bin\java.exe ... 


2 peter 
hello world 
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7-60 ”遍历 输出 散 列 article 中 的 所 有 键 的 值 


从 图 7-60 中 可 以 看 出 , 散 列 article 中 共有 两 个 键 ,因此 值 也 是 两 个 , 即 peter 和 hello 


world. 
6. 删除 散 列 中 指定 键 及 其 相对 应 的 值 


在 TestHashOperate.java 文件 中 ,定义 一 个 hdelTest () 方 法 ,用 于 删除 散 列 中 指定 键 
及 其 相对 应 的 值 ,具体 代码 如 下 : 


@Test 
public void hdelTest()( 


2 
2 
3 Long result -jedis.hdel("article", "author"); 
4 System.out.println(result); 

5 


) 


在 上 述 代 码 中 ,第 3 行 代码 通过 jedis 对 象 调 用 hdel () 方 法 ,用 于 删除 散 列 article 中 键 
author 及 其 相对 应 的 值 Peter; 第 4 行 代码 输出 返回 的 结果 。 

运行 hdelTest () 方 法 ,删除 散 列 中 指定 键 及 其 相对 应 的 值 ; 再 运行 hgetallTest O X 
法 ,查看 散 列 article 中 键 author 及 其 对 应 的 值 Peter 是 否 被 成 功 删 除 。IDEA 工具 的 控制 
台 输 出 效果 ,具体 如 图 7-61 所 示 。 


Pb » v Testspassed:1of1test-13ms 


) | E:\servers\windows\Java\jdk\bin\java.exe ... 个 
8 content-hello world i 


» » 


E Terminal PaRin = 6: TODO Q Event Log 


7-61 查看 键 author 及 其 对 应 的 值 Peter 是 否 被 成 功 删 除 
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从 图 7-61 中 可 以 看 出 , 散 列 article 中 只 有 一 个 键 值 对 , 则 说 明 键 author 和 对 应 值 
Peter 已 经 被 成 功 删除 。 
752 操作 有 序 集合 
1. 创建 Java 类 ,连接 Redis 


在 项 目 nosql_chapter07 中 的 com.itcast.redis 包 下 创建 TestSsetsOperate.java X ff. 
该 文件 用 于 编写 Java 操作 Redis 散 列 的 代码 ,编写 Java 连接 Redis 数据 库 的 代码 ,具体 代 
码 如 文件 7-6 所 示 。 


文件 7-6 TestSsetsOperate.java 


1 import redis.clients.jedis.Jedis; 

2 public class TestSsetsOperate { 

3 private static Jedis jedis =new Jedis("192.168.121.134", 6379); 
4 public static void main(String[] args) ( 

5 System.out .println(" 服 务 启动 ..." «jedis.ping()); 

6 } 

7 


2. 为 有 序 集合 添加 一 个 或 多 个 键 值 对 


在 TestSsetsOperate.java 文件 中 ,定义 一 个 zaddTest () 方 法 ,用 于 为 有 序 集合 添加 一 
个 或 多 个 键 值 对 ,具体 代码 如 下 : 


1 @Test 

2 public void zaddTest()( 

3 Map«String, Double»map -new HashMap«» (); 
4 map.put("jack",5.0); 

5 map.put("bob",3.5); 

6 map.put("tom", 6.0); 

$ Long result =jedis.zadd("score", map); 

8 System.out.println(result); 

9 


H 


在 上 述 代码 中 ,第 3 行 代码 通过 创建 一 个 Map 集合 ,用 于 存放 集合 的 元 素 和 分 值 ;第 
47-6 行 代码 通过 map 对 象 调 用 put. () 方 法 ,用 于 为 有 序 集合 添加 三 个 键 值 对 ;第 7 行 代码 
通过 jedis 对 象 调用 zadd () 方 法 ,用 于 将 元 素 和 分 值 传人 到 有 序 集 合 score 中 ;第 7 行 代码 
输出 返回 的 结果 。 

运行 zaddTest () 方 法 ,为 有 序 集合 添加 一 个 或 多 个 键 值 对 ,然后 查看 IDEA 工具 的 控 
制 台 输 出 ,效果 如 图 7-62 所 示 。 

从 图 7-62 中 可 以 看 出 ,已 经 成 功 为 有 序 集合 score 添加 三 个 元 素 /分 值 对 。 


3. 获取 有 序 集合 中 指定 索引 范围 内 的 元 素 


在 TestSsetsOperate.java 文件 中 ,定义 一 个 zrangeTest () 方 法 .用 于 获取 有 序 集合 中 
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Pb » w Tests passed: 1 of 1 test -6ms 


) ~] E:\servers\windows\Java\jdk\bin\java.exe ... 个 
2n 3 
S 4 


» » 


| 
Æ 6 TODO Œ 0 Messages Q Event Log 


图 7-62 打印 输出 返回 结果 


E Terminal 


指定 索引 范围 内 的 元 素 , 具 体 代 码 如 下 : 


1 Test 

2 public void zrangeTest() ( 

3 Set«String»score -jedis.zrange("score", 0, -1); 
4 Iterator«String»iterator -score.iterator(); 

5 while (iterator.hasNext())( 

6 String next -iterator.next(); 

7 System.out.println(next); 

8 

9 


} 


在 上 述 代 码 中 ,第 3 行 代码 通过 jedis 对 象 调用 zrange() 方 法 ,用 于 获取 有 序 集合 score 
中 指定 索引 范围 内 的 元 素 ;第 4 行 代码 通过 有 序 集合 score 调用 iterator() 方 法 ,用 于 将 获取 
到 的 元 素 存放 到 一 个 迭代 器 中 ;第 5-7 行 代码 通过 遍历 输出 有 序 集合 score 中 指定 索引 范 
围 内 的 元 素 。 

运行 zrangeTest () 方 法 ,实现 获取 有 序 集合 score 中 指定 索引 范围 内 的 元 素 , 然 后 查看 
IDEA 工具 的 控制 台 输 出 ,效果 如 图 7-63 所 示 。 


b) » v Tests passed: 1 of 1 test - 9 ms 


Ə *| E:\servers\windows\Java\jdk\bin\java.exe ... 
8 bob 


jack 
tom 
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图 7-63 打印 输出 返回 结果 


从 图 7-63 中 可 以 看 出 ,有 序 集合 score 中 有 三 个 元 素 ,分 别 是 bob.jack 以 及 tom, 
4. 获取 有 序 集合 中 元 素 的 个 数 


在 TestSsetsOperate.java 文件 中 ,定义 一 个 zcardTest () 方 法 ,用 于 获取 有 序 集合 中 元 
素 的 个 数 , 具 体 代码 如 下 : 


@Test 
public void zcardTest (){ 


i 

2 

ki Long num =jedis.zcard("score"); 
4 System.out .println(num) ; 

5 


} 
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在 上 述 代码 中 ,第 3 行 代码 通过 jedis 对 象 调 用 zcard () 方 法 ,用 于 获取 有 序 集合 score 
中 元 素 的 个 数 ; 第 4 行 代码 输出 有 序 集合 中 元 素 的 个 数 。 

运行 zcardTest () 方 法 ,获取 有 序 集合 score 中 元 素 的 个 数 , 然 后 查看 IDEA 工具 的 控 
制 台 输出 ,效果 如 图 7-64 所 示 。 


> » w Tests passed: 1 of1test-6ms 


9 x] E:\servers\windows\Java\jdk\bin\java.exe ... 个 


8 3 4 
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El 7-64 打印 输出 有 序 集合 score 中 元 素 的 个 数 
从 图 7-64 中 可 以 看 出 ,有 序 集合 score 中 一 共有 三 个 元 素 。 
5. 统计 有 序 集合 中 指定 分 值 范围 内 的 元 素 个 数 


在 TestSsetsOperate.java 文件 中 ,定义 一 个 zcountTest () 方 法 ,用 于 统计 有 序 集合 中 
指定 分 值 范围 内 的 元 素 个 数 , 具 体 代码 如 下 : 


1 @Test 

2 public void zcountTest() ( 

3 Long num -jedis.zcount ("score", 2, 4); 
4 System.out.println(num); 

5 } 


在 上 述 代码 中 ,第 3 行 代 码 通过 jedis 对 象 调 用 zcount () 方 法 ,用 于 统计 有 序 集合 score 
中 分 值 范围 为 L2,4] 的 元 素 的 个 数 ; 第 4 行 代码 输出 有 序 集合 中 分 值 范围 为 [2,4] 的 元 素 的 
个 数 。 

运行 zcountTest () 方 法 ,统计 有 序 集合 中 指定 分 值 范围 内 的 元 素 的 个 数 ,然后 查看 
IDEA 工具 的 控制 台 输 出 ,效果 如 图 7-65 所 示 。 


b) » v Tests passed: 1 of 1 test -6ms 


oE E: \servers\windows\Java\jdk\bin\java.exe ... 


A 


8 1 
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Hl 7-65 打印 输出 有 序 集合 score 中 分 值 范围 为 [2.4] 的 元 素 的 个 数 


从 图 7-65 中 可 以 看 出 ,有 序 集合 score 中 分 值 范围 为 [2 ,4] 的 元 素 只 有 一 个 。 
6. 获取 有 序 集合 中 指定 元 素 的 分 值 


在 TestSsetsOperate.java 文件 中 ,定义 一 个 zscoreTest () 方 法 ,用 于 获取 有 序 集合 中 
指定 元 素 的 分 值 ,具体 代码 如 下 : 
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GTest 


public void zscoreTest () { 


i 
2 
Bi Double zscore -jedis.zscore("score", "jack"); 
4 System.out.println(zscore); 

5 


} 
在 上 述 代 码 中 ,第 3 行 代 码 通过 jedis 对 象 调用 zscore () 方 法 .用 于 获取 有 序 集合 score 
中 元 素 jack 的 分 值 ;第 4 行 代码 输出 元 素 jack 的 分 值 。 


运行 zscoreTest () 方 法 ,获取 有 序 集合 中 指定 元 素 的 分 值 ,然后 查看 IDEA. 工具 的 控制 
台 输 出 ,效果 如 图 7-66 所 示 。 


b) » v Tests passed: 1 of 1 test - 9 ms 


)9 司 E:\servers\windows\Java\jdk\bin\java.exe ... 


8 | 5.6 


» 
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图 7-66 打印 输出 有 序 集合 score 中 元 素 jack 的 分 什 
从 图 7-66 中 可 以 看 出 ,有 序 集合 score 中 元 素 jack 的 分 值 为 5.0。 
7. 移 除 有 序 集合 中 的 指定 元 素 


在 TestSsetsOperate.java 文件 中 ,定义 一 个 zremTest () 方 法 ,用 于 移 除 有 序 集合 中 的 


指定 元 素 , 具 体 代 码 如 下 : 
1 Test 
2 public void zremTest()( 
3 Long result -jedis.zrem("score", "tom"); 
4 System.out.println(result); 
5 


在 上 述 代码 中 ,第 3 行 代 码 通过 jedis 对 象 调用 zrem () 方 法 ,用 于 移 除 有 序 集合 score 
中 的 元 素 tom; 58 4 行 代码 输出 结果 , 若 结果 为 1, 则 说 明成 功 移 除 元 素 tom. 

运行 zremTest () 方 法 , 移 除 有 序 集合 中 的 指定 元 素 , 并 运行 zrangeTest () 方 法 ,查看 
元 素 tom 是 否 被 移 除 , 然 后 查看 IDEA 工具 的 控制 台 输出 ,效果 如 图 7-67 所 示 。 


b » v Testspassed:1of1itest-10ms 


险 ~| E: \servers\windows\Java\jdk\bin\java.exe ... 


个 
8 bob 5 
jack E 
J EI 
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7-67 ”打印 输出 的 结果 


从 图 7-67 中 可 以 看 出 ,有 序 集合 score 中 已 经 不 存在 元 素 tom 了 ,因此 说 明 有 序 集合 
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score 中 元 素 tom 被 成 功 移 除 。 
7.6 本 章 小 结 


本 章 讲解 了 键 值 对 存储 数据 库 Redis 相关 的 知识 ,首先 介绍 Redis, Redis 特点 和 应 用 场 
景 , 让 读者 认识 Redis 数据 库 ;其 次 介绍 Redis 支持 的 常用 5 种 数据 结构 ,使 读者 了 解 这 5 种 
数据 结构 的 存储 方式 ;接着 介绍 Redis 的 部 署 , 读 者 应 掌握 如 何在 Windows 平台 和 Linux 
平台 上 部 署 Redis; 最 后 介绍 使 用 redis-cli 和 Java 操作 Redis 数据 库 , 读 者 应 掌握 如 何 操作 
Redis 数据 库 中 的 数据 。 通 过 阅读 本 章 ,读者 可 以 快速 ` 有 效 地 了 解 Redis, 从 而 更 好 、 更 高 
效 地 使 用 Redis。 


7.7 课 后 习题 


一 、 填空 题 


ik 最 简单 的 NoSQL 数据 库 。 

2. Redis 数据 库 是 用 语言 编写 开发 的 。 

3. Redis 数据 库 提 供 了 多 种 数据 结构 ,其 中 最 常见 的 数据 结构 有 String、List、 
„Hash, o 

4. 是 Redis 中 最 基本 也 是 最 简单 的 数据 结构 。 

5. 由 不 重复 且 无 序 的 字符 串 元 素 组 成 的 。 


二 、 判 断 题 


1. 键 值 对 存储 数据 库 中 的 数据 是 以 列 的 形式 来 存储 的 。 

2. Redis 是 一 个 开源 的 、 高 性 能 的 、 基 于 键 值 对 的 缓存 与 存储 数据 库 。 
3. List 列表 中 不 允许 出 现 重 复 的 元 素 。 
4 
5 


. Hash 散 列 只 能 存储 一 个 键 值 对 之 间 的 映射 。 
. 有 序 集合 可 以 直接 对 值 进 行 操作 ,而 散 列 是 通过 键 来 查找 值 。 


一 一 一 一 一 
ww ww 


三 、 选 择 题 
1. 下 列 选项 中 ,( ) 是 Redis 服务 的 端口 号 。 
A. 6379 B. 6364 C. 808 D. 50070 
2. 下 列 选项 中 ,( ) 不 是 Redis 的 特点 。 
A. 读 写 速度 慢 B. 只 支持 一 种 数据 结构 
C. 功能 丰富 D. 性 能 低 
3. 下 列 数据 库 中 ,( ) 不 是 键 值 对 存储 数据 库 。 
A. Redis B. Tokyo C. Oracle BDB D. MongoDB 
四 、 简 答题 


简 述 Redis 的 应 用 场景 。 
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五 、 操 作 题 


通过 Redis 的 Java API 编程 ,实现 以 下 的 操作 : 
(1) 创建 键 。 

(2) 为 多 个 键 设置 值 。 

(3) 获取 多 个 键 的 对 应 值 。 

COD 修改 指定 键 的 名 称 。 

(5) 删除 指定 键 。 


第 8x 
列 式 存储 数据 库 HBase 


学 习 目 标 

* 熟悉 HBase 概念 

* 理解 HBase 的 数据 模型 

。 熟悉 HBase 的 架构 

。 掌握 HBase 的 部 署 

。 掌握 HBase 的 Shell 操作 

。 掌握 HBase 的 JavaAPI 操作 


列 式 存储 数据 库 也 是 NoSQL 数据 库 的 一 种 类 型 。 顾 名 思 义 , 列 式 存储 数据 库 中 的 数 
据 是 基于 列 进行 存储 的 。 常 见 的 列 式 存储 数据 库 有 HBase、Cassandra、Riak 以 及 
HyperTable。 由 于 HBase 数据 库 基于 Hadoop 生态 系统 ,利用 HBase 集群 可 在 多 台 廉 价 
PC Server 上 实现 结构 化 数据 的 分 布 式 数据 存储 ,从 而 处 理 海量 的 数据 。 因 此 ,本 章 将 针对 
HBase 数据 库 的 相关 知识 进行 详细 讲解 。 


8.1 HBase 概述 


HBase 起 源 于 2006 年 Google 公司 发 表 的 BigTable 论文 。 在 2008 年 ,PowerSet 公司 
的 Chad Walters 和 Jim Keller 受到 了 该 论文 思想 的 启发 ,把 HBase 作为 Hadoop 的 子 项 目 
来 进行 开发 维护 ,运行 于 HDFS 文件 系统 之 上 。 
HBase 是 一 个 基于 Java、 开 源 的 、 高 可 靠 、 高 性 能 、 面 向 列 、 可 伸缩 的 列 式 非 关 系数 据 
库 , 也 可 以 称 为 列 式 分 布 式 数据 库 ( 简 称 *HBase 分 布 式 数据 库 ”)。HBase 的 目标 是 存储 并 
处 理 海量 非 结 构 化 和 半 结 构 化 的 松散 数据 ,更 具体 来 说 是 仅 使 用 普通 的 硬件 配置 ,就 能 够 处 
理由 成 千 上 万 的 行 和 列 所 组 成 的 海量 数据 。HBase 分 布 式 数据 库 具 有 如 下 的 显著 特点 。 
。 海量 存储 。HBase 通过 多 台 廉 价 PC Server 实现 存储 PB 级 别 的 海量 数据 ,并 且 可 
以 在 几 十 毫秒 或 几 百 毫秒 内 返回 数据 。 
* 面向 列 。HBase 面向 列 的 存储 和 权限 控制 ,并 支持 独立 检索 。HBase 是 根据 列 族 来 
存储 数据 的 , 列 族 下 面 可 以 有 非常 多 的 列 . 列 族 在 创建 表 的 时 候 就 必须 指定 ,并 且 可 
以 单独 对 列 进行 各 种 操作 。 
* 多 版 本 。HBase 中 表 的 每 一 个 列 的 数据 存储 都 有 多 个 Version( 版 本 , 即 同 一 条 数据 
插入 不 同 的 时 间 戳 ) 。 一 般 地 ,每 一 列 对 应 着 一 条 数据 ,但 是 有 的 数据 会 对 应 多 个 版 
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本 ,例如 ,存储 个 人 信息 的 HBase 表 中 ,如 果 某 个 人 多 次 更 换 过 家 庭 住址 ,那么 记录 
家 庭 住址 的 数据 就 会 有 多 个 版 本 。 

fWTE. HBase 的 稀 朴 性 主要 体现 出 HBase 列 的 灵活 性 ,在 列 族 中 ,可 以 指定 任意 
多 个 列 ,在 列 数据 为 空 的 情况 下 ,是 不 会 占用 存储 空间 的 。 

易 扩 展 性 。HBase 的 扩展 性 主要 体现 在 两 个 方面 ,一 个 是 基于 上 层 处 理 能 力 
(RegionServer) 的 扩展 ,一 个 是 基于 存储 的 扩展 (HDFS)。HBase 的 底层 依赖 
HDFS, 当 磁盘 空间 不 足 时 ,我 们 可 以 动态 地 增加 机 器 ( 即 DataNode 结 点 服务 ) 来 解 
决 ,从 而 避免 进行 数据 的 迁移 。 

高 可 靠 性 。 由 于 HBase 底层 使 用 的 是 HDFS, 而 HDFS 的 分 布 式 集群 具有 备份 机 
制 ,Replication( 副 本 ) 机 制 能 够 保证 数据 不 会 发 生 丢 失 或 损坏 。 


虽然 HBase 是 Google Bigtable 的 开源 实现 ,但 是 它们 之 间 有 很 多 不 同 之 处 ,例如 ， 
Google BigTable 利用 GFS 作为 其 文件 存储 系统 ,而 HBase 利用 Hadoop HDFS 作为 其 文 
件 存储 系统 ; Google 运行 MapReduce 来 处 理 BigTable 中 的 海量 数据 ,而 HBase 利用 
Hadoop 的 MapReduce 来 处 理 HBase 中 的 海量 数据 ;Google BigTable 利用 Chubby 作为 协 
同 服务 ,而 HBase 利用 Zookeeper 作为 协调 服务 。 

HBase 作为 一 种 数据 库 , 它 与 传统 数据 库 相 比 区 别 很 大 ,下 面 从 存储 模式 、 表 字段 以 及 
可 延伸 性 这 三 个 方面 分 别 进行 介绍 。 

(1) 存储 模式 。 

传统 数据 库 中 数据 是 基于 行 存储 的 ,而 在 HBase 中 数据 是 基于 列 进行 存储 的 。 

(2) 表 字 段 。 

传统 数据 库 中 的 表 字 段 不 能 超过 30 个 ,而 HBase 中 的 表 字 段 数量 不 作 限 制 。 

(3) 可 延伸 性 。 

传统 数据 库 中 的 列 是 固定 的 ,需要 先 确定 列 有 多 少 才 会 增加 数据 去 存储 ,而 HBase 是 
根据 数据 存储 的 大 小 去 动态 地 增加 列 , 列 是 不 固定 的 ,但 是 列 族 是 固定 的 。 

HBase 分 布 式 数 据 库 常 见 的 应 用 场景 包括 对 象 存储 、 时 序数 据 、 推 荐 面 像 、 时 空 数据 、 
Cube 分析 、 消 息 / 订 单 存 储 以 及 社交 Feeds 流 等 场景 ,具体 介绍 如 下 。 


对 象 存 储 。 目 前 ,新 闻 类 的 公司 会 将 新 闻 文档 、 网 页 .图片 均 存 储 在 HBase 之 中 ;一 
些 病毒 公司 也 将 病毒 库存 储 在 HBase 之 中 。 

时 序数 据 。OpenTSDB 时 序数 据 库 用 于 存储 时 序数 据 , 时 序数 据 包括 传感器 数据 、 
股票 K 线 数据 以 及 监控 数据 等 ,而 OpenTSDB 时 序数 据 库 底层 使 用 的 是 HBase 数 
据 库 , 因 此 HBase 可 以 用 于 存储 时 序数 据 。 

推荐 画像 。 由 于 HBase 具有 稀 朴 性 ,可 以 将 数据 表 设 计 得 非常 稀 朴 ,而 推荐 系统 和 
用 户 画 像 中 的 用 户 特 征 和 行为 数据 是 一 个 万 列 稀疏 矩阵 ,HBase 在 推荐 画像 方面 也 
很 受 欢迎 。 

时 空 数据 。 时 空 数据 主要 包括 轨迹 、 气 象 网 格 数据 等 。 国 内 滴 滴 打 车 的 轨迹 数据 主 
要 存储 于 HBase 之 中 ;一 些 车 联网 企业 也 将 车 的 相关 数据 (车 的 里 程 、 速 度 以 及 车 
内 的 问题 等 ) 存 储 于 HBase P. 

CubeDB OLAP., Kylin 是 一 个 Cube 分 析 工 具 ,. 其 底层 数据 存储 在 HBase 之 中 。 
Kylin 的 使 用 者 基于 离线 计算 构建 Cube, 将 数据 存储 在 HBase 之 中 ,满足 在 线 报表 
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查询 的 需求 。 

。 消息 /订单 存储 。 在 电信 ,银行 领域 ,订单 相关 的 数据 也 存储 于 HBase 之 中 ,以 方便 
后 续 查 询 ; 男 外 ,很 多 通信 、 消 息 同步 的 应 用 均 构建 在 HBase 之 上 。 

* 社交 Feeds 流 。 目 前 ,常见 的 社交 Feeds 流 包 括 微 信和 朋友 圈 、 微 博 、 头 条 等 ,这 些 
Feeds 流产 生 的 数据 主要 存储 于 HBase 之 中 。 


8.2 HBase 的 数据 模型 


HBase 分 布 式 数据 库 的 数据 存储 在 行列 式 的 表格 中 , 它 是 一 个 多 维度 的 映射 模型 ,其 
数据 模型 如 图 8-1 所 示 。 


Column Family:cl Column Family:c2 Column Family:c3 


Row Key Timestamp 


Colum: Value Column Value Colum Value 


cl:col-1| value-1 c3:col-1| value-1 


t6 cl:col-2| value-2 c3:col-2| value-2 
t5 c1:co1-3| value-3 
t4 


c1: col-1| value-l |c2:col-1|value-1l |c3:col-1|value-1 


c1:col-2 value-2 


cl :col-3| value-3 


Æ 8-1 HBase 的 数据 模型 


在 图 8-1 中 包含 了 很 多 的 字段 ,这 些 字段 分 别 表示 不 同 的 含义 ,具体 介绍 如 下 : 

* Row Key( 行 键 )。 

Row Key 表示 行 键 ,每 个 HBase 表 中 只 能 有 一 个 行 键 ,类 似 于 主键 , 它 在 HBase 中 以 
字典 序 的 方式 存储 。 由 于 Row Key 是 HBase 表 的 唯一 标识 ,因此 Row Key 的 设计 非常 重 
要 。 数 据 的 存储 规则 是 相近 的 数据 存储 在 一 起 。 例 如 , 当 Row Key 格式 为 www.apache. 
org、mail.apache.org 以 及 jira.apache.org 这 样 的 网 站 名 称 时 ,可 以 将 网 站 名 称 进行 反 转 , 反 
转 成 org.apache. www ,org.apache. mail 以 及 org.apache.jira, 然 后 再 进行 存储 ,这 样 的 话 , 所 
有 org.apache 域名 将 会 存储 在 一 起 .避免 子 域名 ( 即 www、mail\jira) 分 散在 各 处 。 

* Column Family( 列 族 ) 。 

在 HBase 中 , 列 族 由 多 个 列 组 成 。HBase 会 尽量 把 同一 个 列 族 的 列 放 在 同一 个 服务 器 
上 ,这样 可 以 提高 读 写 数据 的 性 能 ,并 且 可 以 批量 管理 多 个 有 关联 的 列 。HBase 中 数据 的 
属性 都 是 定义 在 列 族 上 ,同一 个 列 族 内 的 所 有 列 具 有 相同 的 属性 。 在 HBase 中 创建 数据 表 
时 ,定义 的 是 列 族 , 而 不 是 列 。cl、c2、c3 均 为 列 族 名 。 

。 Column( 列 ) 。 

HBase 表 的 列 是 由 列 族 名 、 限 定 符 以 及 列 名 组 成 的 ,其 中 *: ?为 限定 符 。 创 建 HBase 
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表 不 需要 指定 列 , 因 为 列 是 可 变 的 ,非常 灵活 。 
* Timestamp(CHT [B] , 
表示 时 间 戳 ,记录 每 次 操作 数据 的 时 间 ,通常 记 作 数据 的 版 本 号 。 


8.3 HBase 的 架构 


HBase 构建 在 Hadoop 分 布 式 文件 系统 (HDFS) 之 上 , HDFS 为 HBase 提供 了 高 可 靠 
的 底层 存储 支持 ,Hadoop 分 布 式 计算 框架 (MapReduce) 为 HBase 提供 了 高 性 能 的 计算 能 
力 , 分 布 式 协作 框架 (Zookeeper) 为 HBase 提供 了 稳定 服务 和 容错 机 制 。 下 面 , 通 过 一 张 图 
介绍 HBase 的 整体 架构 ,具体 如 图 8-2 所 示 。 


图 8-2 HBase 架构 


在 图 8-2 "P. HBase 含有 多 个 组 件 。 下 面 ,针对 HBase 架构 中 的 核心 组 件 进行 详细 

介绍 。 

* Client。 即 客户 端 , 它 通过 RPC 协议 与 HBase 进行 通信 。 

* Zookeeper。 即 分 布 式 协调 服务 , 在 HBase 集群 中 的 主要 作用 是 监控 
HRegionServer 的 状态 ,将 HRegionServer 的 上 下 线 信息 实时 通知 给 HMaster, 确 
保 集群 中 只 有 一 个 HMaster 在 工作 。 

e HMaster。 即 HBase 的 主 结 点 ,用 于 协调 多 个 HRegion Server. 主要 用 于 监控 
HRegion Server 的 状态 以 及 平衡 HRegion Server 之 间 的 负载 。 除 此 之 外 ， 
HMaster 还 负责 为 HRegion Server 分 配 HRegion. 

在 HBase 中 ,如 果 有 多 个 HMaster 结 点 共存 ,提供 服务 的 只 有 一 个 HMaster, 其 他 的 
HMaster 处 于 待命 状态 。 如 果 当 前 提供 服务 的 HMaster 结 点 宕 机 ,那么 其 他 的 HMaster 
会 推举 出 一 个 新 的 HMaster 来 管理 HBase 的 集群 。 


第 8 章 列 式 存储 数据 库 HBase 


* HRegion Server. BI HBase 的 从 结 点 , 它 包 括 多 个 HRegion. 主要 用 于 响应 用 户 的 
1/0 请 求 ,向 HDFS 文件 系统 读 写 数据 。 

e HRegion。 即 HBase 表 的 分 片 , 每 个 Region 中 保存 的 是 HBase 表 中 某 段 连续 的 
数据 。 

* Store。 每 一 个 HRegion 包含 一 或 多 个 Store。 每 个 Store 用 于 管理 一 个 Region 上 
的 一 个 列 族 。 

* MemStore。 即 内 存 级 缓存 ,MemStore 存放 在 store 中 的 ,用 于 保存 修改 的 数据 ( 即 
Key/Values 形式 ) 。 当 MemStore 存储 的 数据 达到 一 个 阀 值 (默认 128MB) 时 ,数据 
会 进行 flush 操作 ,将 数据 写 和 人 StoreFile 文件 。MemStore 的 flush 操作 是 由 专门 
的 线程 负责 的 

。 StoreFile。 MemStore 中 的 数据 写 到 文件 后 就 是 StoreFile, StoreFile 底层 是 以 
HFile 文件 的 格式 保存 在 HDFS E. 

* HFile, BJ HBase 中 键 值 对 类 型 的 数据 均 以 HFile 文件 格式 进行 存储 。 

。 HLog。 即 预 写 日 志文 件 ,负责 记录 HBase 修改 。HLog 主要 用 于 PC 灾难 恢复 , 它 
记录 着 HBase 数据 库 中 数据 的 变更 ,包括 序列 号 和 实际 数据 ,所 以 一 旦 Region 
Server 宕 机 ,就 可 以 从 HLog 中 回 滚 未 持久 化 的 数据 。 


8.4 HBase 的 部 署 


HBase 中 存储 在 HDFS 中 的 数据 是 通过 Zookeeper 协调 处 理 的 。 由 于 HBase 存在 单 


点 故障 的 问题 ,因此 ,可 以 通过 Zookeeper 部 署 一 nosq101 
个 高 可 用 的 HBase 集群 解决 。 下 面 ,以 三 台 服 务 (HMaster) 


器 (nosql01、nosql02 和 nosql03) 为 例 , 讲 解 如 何 安 
装 部 署 HBase 高 可 用 集群 。HBase 高 可 用 集群 的 
规划 方式 如 图 8-3 所 示 。 

在 图 8-3 中 , HBase 高 可 用 集群 中 的 nosql01 
和 nosql02 是 主 结 点 , nosql02 和 nosql03 是 从 结 


点 。 这 里 之 所 以 将 nosql02 既 部 署 为 主 结 点 ,也 部 nosq102 nosq103 
x 为 从 结 点 其 H 的 是 为 T 避 L3 HBase 集 群 主 结 (HMaster HRegionServer) (HRegionServer) 
点 宕 机 导致 单 点 故障 问题 。 Ets eH 
接 下 来 ,分 步骤 讲解 如 何 部 署 HBase 集群 , 具 
体 步 骤 如 下 : 


CD 安装 JDK、Hadoop 以 及 Zookeeper, 这 里 我 们 设置 的 JDK 版 本 是 1.8、Hadoop 版 本 
是 2.7.4 以 及 Zookeeper 的 版 本 是 3.4.10, 关 于 JDK、Hadoop 以 及 Zookeeper 的 安装 部 署 ， 
请 参考 第 8 章 环境 配置 文档 ,该 文档 我 们 将 以 资源 文档 的 形式 提供 给 读者 。 

(2) 下 载 HBase 安装 包 。 官 网 下 载 地 址 为 http://archive.apache.org/dist/hbase/。 

注意 : 本 书 会 提供 和 使 用 hbase-1.2.1-bin.tar.gz 安装 包 。 

(3) 通过 SecureCRT 工具 将 HBase 安装 包 上 传 到 服务 器 nosql01 的 /opt/software/ 目 
录 下 ,并 修改 安装 包 的 用 户 和 用 户 组 权限 为 user_hbase, 然 后 解压 HBase 安装 包 至 /opt/ 
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servers/hbase demo 目录 下 。 解 压 安装 包 的 具体 命令 如 下 : 


(4) 将 /hadoop-2.7.4/etc/hadoop 目录 下 的 hdfs-site.xml 和 core-site. xml 配置 文件 复 
制 一 份 到 /hbase-1.2.1/conf 目录 下 ,复制 文件 的 具体 命令 如 下 : 


(5) HEA /opt/servers/hbase demo/hbase-1.2.1/conf 目录 ,修改 相关 配置 文件 。 修 改 
hbase-env.sh 配置 文件 ,指定 jdk 的 环境 变量 并 配置 Zookeeper (默认 是 使 用 内 置 的 
Zookeeper 服务 ) ,修改 后 的 hbase-env.sh 文件 内 容 具 体 如 下 : 


修改 hbase-site.xml 配置 文件 ,指定 HBase 在 HDFS 的 存储 路 径 、HBase 的 分 布 式 存 
储 方式 以 及 Zookeeper 地 址 ,修改 后 的 hbase-site.xml 文件 内 容 具 体 如 下 : 


修改 regionservers 配置 文件 ,配置 HBase 的 从 结 点 角色 ( 即 nosql02 和 nosql03)。 具 
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增加 backup-masters 配置 文件 ,为 防止 单 点 故障 配置 备用 的 主 结 点 角色 ,具体 内 容 
如 下 : 


nosq102 


通过 执行 vi 一 /.bash_profile 命令 ,修改 用 户 user_hbase 的 环境 变量 配置 文件 .bash_ 
profile, 即 配置 HBase 的 环境 变量 (服务 器 nosql01 .nosql02 和 nosql03 都 要 配置 ,这 里 以 服 
务 器 nosql01 为 例 ) ,具体 内 容 如 下 : 


# 配 置 HBase 环境 变量 
export HBASE HOME= /opt/servers/hbase demo/hbase-1.2.1 
export PATH-$SPATH:SHBASE HOME/bin 


将 HBase 的 安装 目录 分 发 至 nosql02 ,nosql03 服务 器 上 .具体 命令 如 下 : 


$scp -r /opt/servers/hbase demo/hbase-1.2.1/ nosq102:/opt/servers/hbase demo/ 
$scp -r /opt/servers/hbase demo/hbase-1.2.1/ nosq103:/opt/servers/hbase demo/ 


在 服务 器 nosql01 .nosql02 和 nosql03 上 分 别 执行 source — /.bash profile 命令 ,使 环 
境 配 置 文件 生效 。 要 注意 的 是 每 次 切换 成 user_hbase 用 户 后 ,都 需要 执行 source 一 /.bash 
_profile 命令 初始 化 用 户 环 境 变 量 。 

(6) 启动 Zookeeper 和 Hadoop( 启 动 之 前 , 先 确保 已 经 关闭 之 前 开启 的 Zookeeper 服务 
和 Hadoop 相关 服务 ) ,具体 命令 如 下 : 

# 启 动 zookeeper 

$zkServer.sh start 


# 启 动 Hadoop 相关 的 服务 
$start-all.sh 


(7) 启动 HBase 集群 ,具体 命令 如 下 : 


$start-hbase.sh 


这 里 要 注意 的 是 ,在 启动 HBase 集群 之 前 ,必须 要 保证 集群 中 各 个 结 点 的 时 间 是 同步 
的 , 若 不 同步 会 抛 出 ClockOutOfSyncException 异常 ,导致 从 结 点 无 法 启动 。 因 此 必须 在 集 
群 各 个 结 点 中 执行 如 下 命令 来 保证 时 间 同 步 。 


# 安 装 ntpdate 
$sudo yum install ntpdate -y 
# 时 间 同 步 


$sudo ntpdate -u cn.pool.ntp.org 


(8) 通过 jps 命令 检查 H Base 集群 服务 部 署 是 否 成 功 , 如 图 8-4 所 示 . 
从 图 8-4 中 可 以 看 出 ,服务 器 nosql01 上 出 现 了 HMaster 进程 ,服务 器 nosql02 上 出 现 
T HMaster 和 HRegionServer 进程 ,服务 器 nosql03 上 出 现 了 HRegionServer 进程 ,证 明 
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192168121135 - SecureCRT 
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d S dd a E host eater m 


Fle Edit View Options Transfer Script Tools 
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Fle Edit View Options Transfer Script Tools 
Window Help 


421921681.. | 71921681. [V 1921681 x | 4 


user _hbaseänosgql01 hbase demol$ Jps 
3201 QuorumPeerMain 

2867 NodeManager 

3364 

2503 DataNode 

2408 NameNode 

2781 ResourceManager 


osqT02 hbase demoT$ jps 


2744 
2985 Jps 

2652 QuorumPeerMain 
2413 secondarywameNode 


[Tuser-hbaseünosqT03 hbase demo]$ ips 
Is 

2656 SnSEFver 

Pelo Re 

2361 NodeManager 

2285 DataNode 

[user hbase&nosql03 hbase demo]$ 


3546 Jps 2494 NodeManager 
fuser hbasetnosq101 hbase deno] [user hbase&nosql02 hbase demo] 
Ready ssh2: AES-256-CTR — 9,34 9R |||Ready ssh2: AES-256-CTR — 9, 34 9R |||Ready ssh2: AES-256-CTR — 7, 34 9R 


图 8-4 查看 HBase 集群 中 的 进程 


HBase 集群 安装 部 署 成 功 。 若 要 停止 HBase 集群 , 则 执行 stop-hbase.sh 命令 即 可 。 
下 面 ,通过 浏览 器 访问 http://nosql01: 16010 或 者 http://192.168.121.134: 16010 , 查 
看 HBase 集群 状态 ,如 图 8-5 所 示 。 


Q Master nosqlol x IF 
€ > Q © FRE | nosqi01:16010/master-status art ORNO 
Fg Home TabieDetais Localogs LogLevel DebugDump MeticsDump HBase Confguration | 
Region Servers 
E ee 
ServerName Start time Version Requests Per Second Num. Regions 
16020,1585649364240 Tue Mar 31 17:52:44 CST 2020 121 0 2 
16020,1585648364294 Tue Mar 31 17:52:44 CST 2020 121 0 0 
Total2 0 2 


图 8-5 HBase 集群 状态 


从 图 8-5 中 可 以 看 出 ,服务 器 nosql01 是 HBase 的 主 结 点 ,服务 器 nosql02 和 nosql03 
是 从 结 点 。 下 面 , 通 过 访问 http://nosql02: 16010 来 查看 集群 备用 主 结 点 的 状态 ,如 图 8-6 


所 示 。 


Current Active Master: nosql01 


@ Backup Master: nosql02 x e 
€ > Q Q 不 安全 | nosql02:16010/master-status Bu 
HBA: -| Home TableDetails Locallogs ”Log Level Debug Dump 


Backup Master nosql02 


&* ORNO 


Metrics Dump — HBase Configuration H 


8-6 ”HBase 集群 备用 结 点 的 状态 
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从 图 8-6 中 可 以 看 出 ,服务 器 nosql02 是 HBase 集群 的 备用 主 结 点 ,并 且 可 以 从 Active 
Master 看 出 主 结 点 在 正常 工作 。 

注意 : 若是 通过 浏览 器 访问 http://nosql01: 16010, 查 看 HBase 集群 状态 ,出 现 无 法 
访问 此 网 站 的 情况 ,如 图 8-7 所 示 。 


r Erama] 
@ nosqlol * S 
€ > Q O nosqi0116010 * 95& 0: 
无 法 访问 此 网 站 


HAE nosql01 的 服务 器 IP 地址. 
尝试 运行 Windows 网 络 诊断 。 


DNS PROBE FINISHED NXDOMAIN 


8-7 “无 法 访问 此 网 站 ”提示 


解决 方法 是 ,可 以 在 本 地 宿主 机 的 hosts 文件 (Windows 7 操作 系统 下 路 径 为 C:\ 
Windows\System32\drivers\etc) 中 添加 集群 服务 的 TP 映射 ,具体 内 容 如 下 (读者 要 根据 自 
身 集群 构建 进行 相应 的 配置 ) : 

192.168.121.134 nosql01 

192.168.121.135 nosql02 

192.168.121.136 nosql03 

添加 完 上 述 内 容 后 ,重新 刷新 网 页 即 可 访问 。 


8.5 HbBase 的 操作 


操作 HBase 常用 的 方式 有 两 种 ,一 种 是 Shell 命令 行 , 另 一 种 是 Java API。 本 节 将 针对 
这 两 种 方式 进行 详细 讲解 。 


8.5.1 HBase 的 Shell 操作 


HBase Shell 提供 了 大 量 操 作 HBase 的 命令 ,通过 Shell 命令 可 以 很 方便 地 操作 HBase 
数据 库 , 例 如 创建 、 删 除 及 修改 表 、 向 表 中 添加 数据 、 列 出 表 中 的 相关 信息 等 操作 。 不 过 当 使 
用 Shell 命令 行 操作 HBase 时 ,需要 进入 HBase Shell 交互 界面 。 在 HBase 的 安装 目录 下 ， 
执行 bin/hbase shell 或 者 hbase shell 命令 进入 到 HBase Shell 界面 ,具体 效果 如 图 8-8 
所 示 。 

进入 HBase Shell 交互 界面 后 ,可 以 通过 一 系列 Shell 命令 操作 HBase, 接 下 来 ,通过 一 
张 表 列举 一 些 操作 HBase 表 的 常见 Shell 命令 ,具体 如 表 8-1 所 示 。 
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192.168.121.134 - SecureCRT Le ru MER. 


File Edit View Options Transfer Script Tools Window Help 
导弹 K); Enter host <Alt+R> T A s E] 


|% 192.168.121.134 x | © 192.168.121.135 | 9 192.168.121.136 
user hbaseünosqT01 hbase-1.2.1]$ bin/hbase she 
SLF4): Class path contains multiple SLF4] bindings. 

SLF4]: Found binding in Lar ;tile:/opt/servers/hi ase demo/hbase-1.2.1/lib/s1f4j-1 
09g4j12-1.7.5. jar! /org/sl 


4j/impl/StaticLoggerBinder.class] 


SLF4]: Found binding in Tjar :filec/opt/serverz/Hbsse domo/hadoop- 2.7. 4/share/hado 


op/common/1ib/s1f4j- 1og4 12-1. 7.10. jar ! /org/s]f4j/impl/StaticLoggerBinder.class] 
SLF4): See http://uww. 5 184]. org/codes. htmlsmultiple bindings for an explanation. 
SLF4J: Actual binding is of type [org.s1f4j. impl.Log4jLoggerFactory] 

HBase Shell; enter 'help«RETURN-' for list of supported commands. 

Type "exit<RETURN>" to leave the HBase Shell 

Version 1.2.1, r8d8a7107dc4ccbf 36a92f64675dc60392f85c015, wed Mar 30 11:19:21 CDT 
2016 


hbase(main) :001:0» 


Ready ssh2: AES-256-CTR. 14, 20 14 Rows, 81 Cols  VT100 CAP NUM 


图 8-8 进入 HBase Shell 的 交互 界面 


表 8-1 常见 的 Shell 命令 


命令 名 称 相关 说 明 
create 创建 表 

ouk 插入 或 更 新 数据 

扫描 表 并 返回 表 的 所 有 数据 

describe 查看 表 的 结构 

get 获取 指定 行 中 列 的 数据 

count 统计 表 中 数据 的 行 数 

delete 删除 指定 行 或 者 列 的 数据 

deleteall 删除 整个 行 或 列 的 数据 

truncate 删除 整个 表 中 的 数据 ,但 是 结构 还 在 
drop 删除 整个 表 , 数 据 和 结构 都 删除 ( 慎 用 ) 


在 表 8-1 中 ,我 们 列举 了 10 个 常用 的 Shell 操作 命令 。 下 面 ,我 们 通过 具体 的 示例 对 这 
些 命 令 进行 详细 讲解 。 


1. 创建 表 
使 用 create 命令 创建 表 . 具 体 语法 如 下 : 


create 'table name', 'column family" 


上 述 语法 中 ,create 表示 用 于 创建 数据 表 的 命令 ;table name 表示 数据 表 , 创 建 表 时 必 
须 指定 ;column family 为 列 族 名 ,创建 表 时 同样 也 必须 指定 。 
例如 ,创建 一 个 名 称 为 phone、 列 族 名 为 info 的 HBase 表 , 具 体 如 下 : 
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执行 list 命令 ,查看 数据 库 中 的 数据 表 , 具 体 如 下 : 


从 上 述 返回 结果 可 以 看 出 ,出 现 了 数据 表 phone, 因 此 可 以 说 明成 功 创建 数据 表 phone, 
2. 插入 操作 
使 用 put 命令 可 插入 或 更 新 数据 表 中 的 数据 ,具体 语法 如 下 : 


上 述 语法 中 ,put 表示 用 于 插入 或 更 新 数据 表 中 数据 的 命令 ;table name 表示 数据 表 ; 
rowl 为 行 键 ( 即 Row Key? :column family:column name 为 列 族 名 和 列 名 ;value 为 插入 列 
的 值 。 

例如 ,向 数据 表 phone 的 info 列 族 中 插入 五 条 数据 ,具体 如 下 : 


3. 扫描 操作 
使 用 scan 命令 扫描 数据 表 中 的 数据 ,具体 语法 如 下 : 


上 述 语法 中 ,scan 表示 用 于 扫描 数据 表 中 数据 的 命令 ;table name 表示 数据 表 。 
例如 ,扫描 数据 表 phone 中 的 所 有 数据 ,具体 如 下 : 
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p001 column=info:brand, timestamp=1585670243062, value=Apple 

p001 column=info:name, timestamp=1585670251467, value=iPhone 11 Pro 
p002 column-info:brand, timestamp-1585670257642, value-HUAWEI 

p002 column=info:name, timestamp-1585670264396, value-HUAWEI Mate 30 Pro 
p002 column-info:price, timestamp-1585670272227, value-5899 


2 row(s) in 0.0240 seconds 


4. 查看 操作 
使 用 describe 命令 查看 数据 表 结 构 , 具 体 语 法 如 下 : 
describe 'table name' 


上 述 语法 中 ,describe 表示 用 于 查看 数据 表 结 构 的 命令 ;table name 表示 数据 表 。 
例如 ,查看 数据 表 phone 的 表 结 构 , 具 体 如 下 : 


hbase (main):009:0» describe 'phone" 

Table phone is ENABLED 

phone 

COLUMN FAMILIES DESCRIPTION 

(NAME -»'info', BLOOMFILTER => 'ROW', VERSIONS =>'1', IN MEMORY => "false'， 

KEEP DELETED CELLS => 'FALSE', DATA BLOCK ENCODING => 'NONE', TTL => 'FOREVER', 
COMPRESSION -»'NONE', MIN VERSIONS -»'0', BLOCKCACHE => 'true', BLOCKSIZE -»'65536', 
REPLICATION SCOPE =>'0'} 


1 row(s) in 0.0970 seconds 


从 上 述 返回 结果 可 以 看 出 ,数据 表 phone 的 表 结构 包含 很 多 字段 ,具体 介绍 如 下 。 

* NAME: 表示 列 族 名 。 

。 BLOOMFILTER: 表示 为 列 族 级 别 的 类 型 。 

。 VERSIONS: 表示 版 本 数 。 

* IN MEMORY: 设置 是 否 存 人 内 存 。 

* KEEP DELETED CELLS; 设置 被 删除 的 数据 ,在 基于 时 间 的 历史 数据 查询 中 是 
否 依 然 可 见 。 

* DATA_BLOCK_ENCODING: 表示 数据 块 的 算法 。 

* TTL; 表示 版 本 存活 的 时 间 。 

。 COMPRESSION: 表示 设置 压缩 算法 。 

。 MIN_VERSIONS: 表示 最 小 版 本 数 。 

。 BLOCKCACHE: 表示 是 否 设置 读 缓存 。 

。 REPLICATION SCOPE; 表示 设置 备份 。 


5. 更 新 操作 
使 用 put 命令 更 新 数据 表 指 定 字段 的 数据 ,具体 语法 如 下 : 


put 'table name', 'row ','column family:column name', 'new value' 
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上 述 语法 中 ,put 表示 用 于 更 新 数据 表 指 定 字段 数据 的 命令 ;table name 表示 数据 表 ; 
row 表示 行 键 ;column family: column name 表示 列 族 名 和 列 名 ;new value 表示 更 新 后 的 
列 值 。 

例如 ,在 数据 表 phone 中 ,将 行 键 为 p001、 列 为 info: name 的 值 iPhone 11 Pro 更 新 为 
iPhone X, 具 体 如 下 : 


上 述 命令 执行 成 功 后 ,执行 scan 'phone' 命 令 扫 描 数据 表 phone 中 的 数据 ,扫描 结果 
如 下 : 


上 述 代码 中 , 行 键 为 p001 、 列 为 info: name 的 值 iPhone 11 Pro 成 功 更 新 为 iPhone X, 
6. 获取 指定 字段 的 操作 
使 用 get 命令 获取 数据 表 中 指定 行 中 列 的 数据 ,具体 语法 如 下 ， 


上 述 语法 中 ,get 表示 用 于 获取 数据 表 中 指定 行 中 列 数据 的 命令 ;table name 表示 数据 
表 ;rowl 表示 指定 的 行 键 。 
例如 ,获取 数据 表 phone 中 行 键 为 p001 的 数据 ,具体 如 下 : 


7. 统计 操作 
使 用 count 命令 统计 数据 表 中 数据 的 行 数 ,具体 语法 如 下 : 
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上 述 语法 中 ,count 表示 用 于 统计 数据 表 中 数据 行 数 的 命令 ;table name 表示 数据 表 。 
例如 ,统计 数据 表 phone 中 数据 的 行 数 . 具 体 如 下 : 


hbase (main) :013:0>count 'phone' 
2 row(s) in 0.0420 seconds 
222 


8. 删除 操作 
使 用 delete 命令 删除 数据 表 中 指定 字段 的 数据 ,具体 语法 如 下 : 


delete 'table name', 'row', 'column name', 'timestamp' 


上 述 语法 中 ,delete 表示 用 于 删除 数据 表 中 指定 字段 数据 的 命令 ;table name 表示 数据 


表 ;row 表示 行 键 ;column family:column name 表示 列 族 名 和 列 名 。 


例如 ,删除 数据 表 phone 中 行 键 为 p002、 列 为 info: price 的 数据 ,具体 如 下 : 


hbase (main) :014:0>delete 'phone', 'p002', 'info:price' 
0 row(s) in 0.0410 seconds 


上 述 命令 执行 成 功 后 ,执行 scan 'phone' 命 令 扫描 数据 表 phone 中 的 数据 ,扫描 结果 


如 下 : 


hbase (main):015:0» scan 'phone" 

ROW COLUMN+ CELL 

p001 column=info:brand, timestamp=1585670243062, value=Apple 

p001 column=info:name, timestamp=1585670251467, value=iPhone X 

p002 column=info:brand, timestamp=1585670257642, value=HUAWEI 

p002 column=info:name, timestamp=1585670264396, value=HUAWEI Mate 30 Pro 


2 row(s) in 0.0570 seconds 


从 上 述 返 回 结果 可 以 看 出 , 行 键 为 p002、 列 名 为 info: price 的 数据 已 经 被 删除 。 
如 果 想 要 删除 数据 表 中 一 行 的 所 有 数据 , 则 可 以 使 用 deleteall 命令 ,具体 语法 如 下 : 


deleteall 'table name', 'row' 


上 述 语法 中 ,deleteall 表示 用 于 删除 数据 表 中 一 行 所 有 数据 的 命令 ;table name 表示 数 


据 表 ;row 表示 行 键 。 


例如 ,要 删除 数据 表 phone 中 行 键 为 p001 的 所 有 数据 ,具体 如 下 : 


hbase (main) :016:0>deleteall 'phone', 'p001' 
0 row(s) in 0.0240 seconds 


上 述 命令 执行 成 功 后 ,执行 scan 'phone' 命 令 扫描 数据 表 phone 中 的 数据 ,扫描 结果 
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从 上 述 返 回 结果 可 以 看 出 , 行 键 为 p001 的 所 有 数据 已 经 被 删除 了 。 
通过 使 用 truncate 命令 清空 数据 表 中 的 所 有 数据 ,具体 语法 如 下 : 


上 述 语 法 中 ,truncate 表示 用 于 清空 数据 表 中 所 有 数据 的 命令 ;table name 表示 数 
表 。 
例如 ,要 清空 数据 表 phone 中 的 所 有 数据 ,具体 如 下 : 


E 


上 述 命令 执行 成 功 后 ,执行 scan 'phone tr 4 AARE phone 中 的 数据 ,扫描 结果 如 下 : 


从 上 述 返 回 结果 可 以 看 出 ,数据 表 phone 中 的 所 有 数据 都 已 经 被 清空 。 
通过 使 用 drop 命令 删除 数据 表 , 具 体 语法 如 下 : 


上 述 语法 中 ,drop 表示 用 于 删除 数据 表 的 命令 ;table name 表示 数据 表 。 
例如 ,删除 数据 表 phone, 具 体 如 下 : 


上 述 代码 中 ,在 删除 数据 表 前 需要 先 执行 disable phone' 命 令 使 数据 表 phone 变 为 禁用 
状态 ,然后 进行 删除 表 操 作 。 若 数据 表 不 是 禁用 状态 , 则 无 法 删除 。 
通过 执行 list 命令 获取 HBase 数据 库 中 的 所 有 数据 表 , 具 体 如 下 : 
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0 row(s) in 0.0180 seconds 


til 


从 上 述 返回 结果 [ ] 可 以 看 出 ,数据 库 已 经 为 空 ,说 明 数 据 表 phone 已 经 被 删除 。 
8.5.2 HBase 的 Java API 操作 


HBase 是 用 Java 语言 开发 的 , 它 对 外 提供 了 Java API 的 接口 。 接 下 来 ,通过 一 个 表 来 
列举 HBase 常见 的 Java API, RAKUNK 8-2 所 示 。 


类 或 接口 名 称 


表 8-2 常见 的 Java API 
相关 说 明 


Admin 


类 ,用 于 建立 客户 端 和 HBase 数据 库 的 连接 ,属于 org. apache. hadoop. hbase. 
client 包 


HBaseConfiguration 


类 ,用 于 将 HBase 相关 配置 添加 至 配置 文件 中 ,属于 org. apache. hadoop. 
hbase 包 


HTableDescriptor 


接口 ,用 于 描述 表 的 信息 ,属于 org.apache.hadoop.hbase 包 


HColumnDescriptor 


类 ,用 于 描述 列 族 的 信息 ,属于 org.apache.hadoop.hbase 包 


Table 接口 ,用 于 实现 HBase 表 通 信 , 属 于 org.apache.hadoop.hbase.client 包 

Put 类 ,用 于 插入 数据 操作 ,属于 org. apache. hadoop.hbase.client 包 

Get 类 ,用 于 查询 单条 记录 ,属于 org.apache.hadoop.hbase.client 包 

Delete 类 ,用 于 删除 数据 ,属于 org.apache.hadoop.hbase.client 包 

Scan 类 ,用 于 查询 所 有 记录 ,属于 org.apache.hadoop.hbase.client 包 

Result 类 ,用 于 查询 返回 的 单条 记录 结果 .属于 org.apache.hadoop.hbase.client 包 


接 下 来 ,通过 Java API 来 操作 HBase 分 布 式 数据 库 , 包 括 增 、 删 \ 改 、 查 等 数据 表 的 操 


作 , 具 体 步骤 如 下 。 


1. 创建 项 目 并 导入 依赖 


打开 IDEA 工具 ,创建 一 个 名 称 为 nosql_chapter08 的 Maven 项 目 。 在 项 目 nosql_ 
chapter08 中 配置 pom.xml 文件 ,也 就 是 引入 HBase 相关 的 依赖 和 单元 测试 的 依赖 , 当 添 加 
完 相关 依赖 后 ,Maven 项 目的 相关 Jar 包 就 会 自动 下 载 。pom.xml 文件 添加 的 内 容 ,具体 


如 下 : 


<dependencies> 


<!- -单元 测试 依赖 --> 


<dependency> 


<groupId>junit</groupId> 
<artifactId>junit</artifactId> 


<version>4.12</version> 


</dependency> 


<!--hbase 客户 端 依赖 --> 
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2. 创建 Java 类 ,连接 集群 


在 项 目 nosql_chapter08 目录 /src/main/java 下 创建 一 个 命名 为 com.itcast.hbase 的 
包 , 并 在 该 包 下 创建 Java 测试 类 文件 HBaseTest.java, 在 该 类 下 构建 Configuration 和 
Connection 对 象 配 置 并 初始 化 HBase 连接 ,具体 操作 步骤 如 文件 8-1 所 示 。 
文件 8-1 HBaseTest.java 


上 述 代码 中 ,第 10 一 12 REEE Configuration 配置 对 象 和 Connection 连接 对 象 ;第 
13 行 代码 注解 @Before, 用 于 Junit 单元 测试 中 控制 程序 最 先 执行 的 注解 ,在 这 里 可 以 保证 
初始 化 init ( ) 方 法 在 程序 中 最 先 执行 ;第 14 一 22 行 代码 定义 初始 化 方法 ,通过 
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Configuration 配置 对 象 配置 HBase 连接 相关 参数 ,并 获取 连接 。 
3. 创建 数据 表 
在 HBaseTest.Java 文件 中 ,定义 一 个 方法 createTable O ,用 于 创建 数据 表 , 具 体 代码 如 下 : 


上 述 代 码 中 ,第 4 一 11 行 代码 获取 HBase 表 管 理 器 对 象 admin, 创 建 表 的 描述 对 象 
tableDescriptor 并 指定 表 名 为 t_phone_info, 创 建 两 个 列 族 描述 对 象 hcdl .hcd2 并 指定 列 族 
名 分 别 为 base_info 和 extra_info; 第 13 行 代 码 为 列 族 hed2 指定 版 本 数量 ;第 15 行 代码 将 
列 族 描述 对 象 添加 到 表 描述 对 象 中 ;第 17 行 代码 使 用 表 管理 器 来 创建 表 ; 第 19、20 行 代码 
关闭 表 管理 器 和 连接 对 象 ,避免 资源 浪费 。 

运行 createTable() 方 法 进行 测试 ,然后 进入 HBase Shell 交互 式 页 面 ,执行 list 命令 查 
看 数据 库 中 的 数据 表 , 具 体 如 下 : 


从 上 述 返 回 结果 可 以 看 出 ,数据 库 中 有 一 个 名 称 为 t_phone_info 的 数据 表 , 说 明 通 过 
Java API 的 方式 成 功 创建 表 t. phone. info, 


4. 插入 数据 
在 HBaseTest.Java 文件 中 ,定义 一 个 testPut() 方 法 ,用 来 演示 在 t. phone. info 表 中 插 
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入 数据 的 操作 ,具体 代码 如 下 : 


上 述 代码 中 ,第 4 行 代码 创建 一 个 表 对 象 table 并 指定 需要 操作 的 数据 表 , 用 于 插 
人 数据 ;第 6 行 代 码 创 建 一 个 集合 puts, 用 于 存放 Put 类 型 的 数据 ,因为 HBase 插 入 的 
数据 存放 在 Put 对 象 中 ;第 8—17 行 代码 创建 了 Put 对 象 , 用 于 构建 表 中 的 行 和 列 ,这 
里 创建 了 两 个 put 对 象 ,并 指定 其 行 键 , 通 过 put 对 象 指定 数据 插入 到 哪个 列 族 下 的 哪 
一 列 ,并 指定 数据 内 容 ; 第 19 —22 行 代码 将 前 面 创建 的 两 个 对 象 添 加 到 puts 集合 中 ， 
并 通过 表 对 象 table 提交 插入 数据 的 记录 ;第 24、25 行 代码 关闭 表 对 象 和 连接 对 象 , 避 
免 资源 浪费 。 

运行 testPut() 方 法 进行 测试 , 待 程序 运行 完成 后 在 HBase Shell 交互 式 页 面 执行 scan 
't phone info'ir 4 ,查看 数据 表 t_phone_info 中 是 否 成 功 插入 数据 ,具体 代码 如 下 : 
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5. 查看 指定 字段 的 数据 


在 HBaseTest.Java 文件 中 ,定义 一 个 testGet() 方 法 ,用 于 查看 行 键 为 p001 的 数据 , 具 
体 代码 如 下 : 


上 述 代码 中 ,第 4 行 代码 创建 一 个 表 对 象 table, 并 指定 要 查询 的 数据 表 t_phone_info; 
第 6 行 代码 创建 一 个 对 象 get, 并 指定 要 查询 数据 表 中 行 键 为 p001 的 所 有 数据 ;第 8 一 10 行 
代码 通过 表 对 象 table 调用 get() 方 法 把 行 键 为 p001 的 所 有 数据 放 到 集合 cells 中 ;第 12 一 
18 行 代码 遍历 打印 集合 cells 中 的 所 有 数据 ;第 21、22 行 代码 关闭 表 对 象 和 连接 对 象 ,避免 
资源 浪费 。 

运行 testGet() 方 法 进行 测试 ,IDEA 控制 台 输 出 的 内 容 如 图 8-9 所 示 。 


» w Tests passed: 1 of 1 test - 1s 761ms 
行 :pee1 
列 族 :base_info 
列 :brand 


~h ug eo 


Si: name 
4&:iPhone 11 pro 


图 8-9 查询 数据 表 t_phone_info 中 行 键 为 p001 的 数据 
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从 图 8-9 中 可 以 看 出 , 行 键 为 p001 的 数据 一 共有 两 条 : 一 条 是 行 键 为 p001、 列 族 为 


base_info、 列 为 brand、 值 为 Apple 的 数据 ; 另 一 条 是 行 键 为 p001、 列 族 为 base_info、 列 为 
name, {Ë} iPhone 11 pro 的 数据 。 


6. 扫描 数据 


在 HBaseTest.Java 文件 中 ,定义 一 个 testScan() 方 法 ,用 于 扫描 t phone info 表 中 的 
所 有 数据 ,具体 代码 如 下 : 
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4l conn.close(); 
42 } 


上 述 代码 中 ,第 4 行 代码 创建 一 个 表 对 象 table, 并 指定 要 扫描 的 数据 表 ( phone info; 
第 6 行 代码 创建 一 个 全 表 扫 描 对 象 scan; 第 8 一 10 行 代码 通过 表 对 象 table 调用 getScanner 
(0) 方 法 扫描 表 中 的 所 有 数据 ,并 将 扫描 到 的 所 有 数据 存放 入 和 迭代 器 中 ;第 12 一 35 行 代码 遍 
历 迭 代 器 中 的 数据 并 打印 到 控制 台 输 出 ;第 40.41 代码 关闭 表 对 象 和 连接 对 象 ,避免 资源 
浪费 。 

运行 testScan() 方 法 进行 测试 ,IDEA 控制 台 输出 的 内 容 如 图 8-10 所 示 。 


> » v Tests passed: 1 of 1 test - 1s 765 ms. 

5 *| 行 键 :pee1 
列 族 :base_info: 列 :brand 值 :Apple 
行 键 :p861 
列 族 :base_info: 列 :name 值 :iPhone 11 pro 


行 键 :p862 

列 族 :base_info: 列 :name 值 :HUAWEI Mate 30 Pro 
{Tit : p002 

列 族 :extra_info: 列 :price 4:5899 


个 
Y 
3 
m 
号 
Li 


Bi Terminal — & Build 三 Q: Messages 
A 8-10 扫描 t phone info 表 中 的 数据 


从 图 8-10 中 可 以 看 出 ,控制 台 把 t_phone_info 表 中 所 有 的 数据 都 打印 输出 。 
7. 删除 指定 列 的 数据 


在 HBaseTest.Java 文件 中 ,定义 一 个 testDel() 方 法 用 于 删除 t_phone_info 表 中 行 键 
为 p001 的 数据 ,具体 代码 如 下 : 


1 erest 

2 public void testDel() throws Exception ( 

3 // 获 取 table 对 象 

4 Table table -conn.getTable(TableName.valueOf("t phone info")); 
5 // 通 过 指定 行 键 获取 delte 对 象 

6 Delete delete =new Delete ("p001".getBytes()); 

7 // 在 delete 对 象 中 指定 要 删除 的 列 族 : 列 

8 delete.addColumn("base info".getBytes(), "name".getBytes()); 
9 // 执 行 删除 操作 

10 table.delete(delete); 

ii // 关 闭 

12 table.close(); 

13 conn.close(); 

i F 


上 述 代码 中 ,第 4 行 代码 创建 一 个 表 对 象 table, 并 指定 要 查看 的 数据 表 t_phone_info; 
第 6 一 8 行 代码 创建 一 个 删除 对 象 delete, 并 指定 要 删除 行 键 为 p001、 列 族 为 base info, Jl 
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为 name 的 一 条 数据 ;第 10 行 代码 通过 表 对 象 table 调用 delete() 方 法 执行 删除 操作 ;第 
12,13 行 代码 关闭 表 对 象 和 连接 对 象 ,避免 资源 浪费 。 

运行 testDel() 方 法 进行 测试 ,然后 在 HBase Shell 交互 式 页 面 执行 scan 't phone info' 
命令 ,查看 数据 表 t_phone_info 中 的 数据 ,具体 代码 如 下 : 


从 上 述 返 回 结果 可 以 看 出 , 行 键 为 p001、 列 族 为 base info 且 列 为 name 的 一 列 数据 没 
有 显示 出 来 ,说 明 这 一 列 数据 被 成 功 删除 。 


8. 删除 表 


在 HBaseTest.Java 文件 中 ,定义 一 个 testDrop() 方 法 用 于 删除 t_phone_info 表 , 具 体 
代码 如 下 : 


上 述 代 码 中 ,第 4 行 代码 创建 一 个 表 对 象 table; 第 6 行 代码 通过 表 对 象 table 调用 
disable( ) 方 法 将 表 t. phone. info 设置 为 禁用 状态 ;第 7 行 代 码 通过 表 对 象 table 调用 
deleteTable() 方 法 执行 删除 表 操 作 ; 第 9.10 行 代码 关闭 表 对 象 和 连接 对 象 ,避免 资源 浪费 。 

运行 testDrop() 方 法 进行 测试 ,然后 进入 HBase Shell 的 交互 式 界 面 ,执行 list 命令 查 
看 HBase 数据 库 中 的 数据 表 . 具 体 如 下 : 


从 上 述 返 回 结果 [ ] 可 以 看 出 ,数据 库 为 空 ,因此 可 以 说 明 数 据 表 t_phone_info 已 经 被 
成 功 删除 。 
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8.6 AM; 


本 章 讲 解 了 列 式 存储 数据 库 HBase 相关 的 知识 。 首 先 介绍 HBase, 让 读者 认识 HBase 
数据 库 ;其 次 介绍 HBase 的 数据 模型 ,使 得 读者 了 解 HBase 的 数据 存储 在 行列 式 的 表格 中 ， 
并 且 还 是 一 个 多 维度 的 映射 模型 ;再 次 介绍 HBase 的 架构 ,希望 读者 熟悉 HBase 的 核心 组 
件 ; 接 着 介绍 HBase 的 部 署 ,希望 读者 务必 要 亲手 实践 并 牢记 HBase 的 部 署 ;最 后 介绍 
HBase 的 基本 操作 ,读者 可 以 掌握 通过 Shell 和 Java API 操作 HBase 数据 库 。 通 过 阅读 本 
TE ,读者 可 以 快速 有效 地 了 解 HBase, 从 而 更 好 、 更 高 效 地 使 用 HBase。 


8.7 课 后 习题 


一 、 填空 题 

1. HBase 是 一 个 \ 高 性 能 、 \ 可 伸缩 的 分 布 式 数据 库 。 

2. HBase 是 构建 在 之 上 ,并 为 HBase 提供 了 高 可 靠 的 底层 存储 支持 。 

3. 当 MemStore 存储 的 数据 达到 一 个 阀 值 时 , MemStore 里 面 的 数据 就 会 被 刷新 
(flush) 到 StoreFile 文件 ,这 个 阔 值 默认 是 o 

二 、 判 断 题 


1. HBase 起 源 于 2006 年 Google 发 表 的 BigTable 论文 。 ) 
2. HBase 是 基于 行进 行 存 储 的 。 ( ) 
3. HBase 中 ,车 有 多 个 HMaster 结 点 共存 , 则 所 有 HMaster 都 提供 服务 。 ( ) 
4. StoreFile 底层 是 以 HFile 文件 的 格式 保存 在 HDFS 上 。 & 3 
三 、 选 择 题 
1. 下 列 选 项 中 ,( ) 不 属于 HBase 的 特点 。 

A. 面向 列 B. 容量 小 

C. 多 版 本 D. 扩展 性 
2. 下 列 选 项 中 ,HBase 是 利用 ( ) 作 为 其 文件 存储 系统 。 

A. MySQL B. GFS 

C. HDFS D. MongoDB 
3. HBase 官方 版 本 不 可 以 安装 在 ( ) 操 作 系 统 上 。 

A. CentOS B. Ubuntu 

C. RedHat D. Windows 
四 、 简 答题 


简 述 HBase 分 布 式 数据 库 与 传统 数据 库 的 区 别 。 
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五 、 编 程 题 


通过 HBase 的 Java API 编程 ,实现 以 下 的 操作 : 

COD 创建 一 张 表 名 为 t_phone_info、 列 族 名 分 别 为 base info 和 extra info 的 HBase 数 
据 表 。 

(2) 向 创建 好 的 HBase 数据 表 中 进行 插入 数据 操作 。 
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学 习 目 标 


。 熟悉 Neo4j 概述 

* 理解 Neo4j 的 数据 模型 

* 掌握 Neodj 的 部 署 

* 掌握 Neo4j 的 Cypher 操作 

。 掌握 Neodj 的 Java API 操作 


图 形 存储 数据 库 也 是 NoSQL 数据 库 的 一 种 类 型 , 它 主要 是 应 用 图 形 理论 存储 实体 之 
间 的 关系 信息 。 常 见 的 图 形 存储 数据 库 有 Neo4j、FlockDB 以 及 AllegroGrap。 由 于 Neo4j 
数据 库 是 日 前 最 流行 .稳定 的 图 形 存储 数据 库 ,因此 ,本 章 将 针对 Neo4j 数据 库 的 相关 知识 
进行 详细 讲解 。 


9.1  Neo4j 概述 


9.1.1 Neo4j 简介 


Neo4j 公司 从 2003 年 开始 研发 Neo4j 数据 库 ,直到 2007 年 Neo4j 公司 正式 发 布 第 一 版 
本 的 Neo4j 数据 库 ,主要 应 用 于 商业 领域 。Neo4j 的 源 代码 托管 在 GitHub 上 ,技术 支持 托 
管 在 Stack Overflow 和 Neo4j Google 讨论 组 上 。 目 前 为 止 ,Neo4j 数据 库 已 经 被 各 种 行业 
的 数 十 万 家 公司 和 组 织 使 用 (例如 , 领 英 、 沃 尔 玛 、Facebook、eBay 以 及 Cisco 等 ) 。 

Neo4j 是 一 个 高 性 能 、 高 可 靠 性 、 可 扩展 ,支持 ACID 事务 的 图 数据 库 。Neo4j 数据 
库 也 可 以 被 看 作 是 一 个 高 性 能 的 图 引擎 .并且 该 引擎 具有 成 熟 数据 库 的 所 有 特性 。 
Neo4j 数据 库 是 基于 Java 语言 开发 的 . 且 是 开源 的 ,其 主要 应 用 图 形 理论 来 存储 实体 之 
间 的 关系 信息 ,其 中 ,实体 被 视 为 图 形 的 “ 结 点 "(node), 关 系 被 视 为 图 形 的 “ 边 ” 
(edge),“ 边 ”按照 关系 将 “ 结 点 ”进行 连接 。 需 要 注意 的 是 , Neo4j 数据 库 的 数据 是 存储 
在 网 络 上 ,而 不 是 存储 在 数据 表 中 ;Neo4j 数据 库 使 用 的 查询 语言 是 Cypher, 类 似 关系 
数据 库 中 的 SQL。 


9.1.2 Neo4j 特点 


Neo4j 数据 库 具 有 读 写 速度 快 . 设 计 灵 活 、 和 迭代 人 敏捷、 高 可 用 性 、 易 用 性、 资源 丰富 以 及 
应 用 广泛 等 显著 特点 ,具体 介绍 如 下 。 
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。 读 写 速度 快 。 

Neo4j 数据 库 具 有 高 效 的 读 取 和 写 入 能力 ,这 种 能 力 与 数据 库 的 大 小 无 关 , 无 论 是 初始 
创建 的 数据 库 , 还 是 已 经 存储 了 海量 数据 的 数据 库 ,Neo4j 始终 能 保持 高 效 的 读 / 写 速度 。 

。 设计 灵活 。 

由 于 Neo4j 数据 库 没 有 模式 结构 定义 的 约束 ,并 且 图 结构 具有 自然 伸缩 特性 ,这 都 给 
Neo4j 数据 库 提供 了 无 限 广阔 的 灵活 设计 空间 。 无 论 是 扩展 设计 ,还 是 增加 数据 ,都 不 会 影 
响 原 来 数据 的 正常 使 用 。 

。 ARIE. 

由 于 Neo4j 数据 库 的 灵活 设计 特性 及 其 图 结构 数据 的 可 伸缩 性 ,使 其 能 够 适应 业务 需 
求 的 发 展 变化 ,并 且 适 用 于 频繁 迄 代 的 敏捷 开发 。 

。 高 可 用 性 。 

Neo4j 数据 库 不 仅 支 持 完整 的 事务 管理 ,还 提供 了 实时 在 线 的 备份 功能 ,以 及 应 对 灾难 
事故 进行 日 志 恢 复 的 方法 ,从 而 可 以 防止 数据 的 丢失 ,因此 可 以 说 Neo4j 数据 库 是 一 个 高 可 
用 的 数据 库 。 

。 DAE. 

Neo4j 数据 库 在 操作 使 用 上 是 非常 简单 的 ,由 于 Neo4j 数据 库 是 用 Java 语言 开发 的 ,并 
且 提 供 了 多 种 语言 API, 例 如 Java、Python、PHP.、.NET、Node.js 及 Ruby 等 语言 ,因此 ,我 
们 可 以 使 用 这 些 语言 非常 轻松 地 访问 并 操作 Neo4j 数据 库 。 

。 资源 丰富 。 

Neo4j 数据 库 的 社区 版 滋生 了 一 个 非常 活跃 的 社区 (Neo4j 社区 网 址 为 http: / /neodj. 
com.cn/) ,在 这 个 社区 中 ,诸多 开发 者 提供 了 非常 丰富 的 使 用 Neo4j 数据 库 的 案例 一 一 
GraphGists( 教 学 案例 网 址 为 https: / /neo4j.com/graphgists/) ,这 是 学 习 和 使 用 Neo4j 数据 
库 的 极 好 资源 。 我 们 可 以 通过 对 这 些 GraphGists 的 学 习 和 交流 ,不 仅 可 以 拓展 我 们 的 思 
路 ,还 可 以 让 我 们 的 开发 工作 变 得 更 加 简单 容易 ,更 能 帮助 我 们 快速 地 构建 应 用 的 商业 
模型 。 

“应用 广泛 。 

Neo4j 数据 库 拥 有 广大 的 用 户 群 体 ,并 且 经 过 几 年 时 间 的 运行 实践 ,充分 验证 了 它 的 稳 
定性 和 健壮 性 。 例 如 ,思科 、 沃 尔 玛 、 阿 迪 达 斯 等 公司 ,都 在 使 用 Neo4j 数据 库 的 过 程 中 挖掘 
到 了 图 数据 库 的 巨大 价值 .并 且 创 造 出 了 攻 勃 发 展 的 商业 模型 。 


9.1.3 Neo4j 应 用 场景 


Neo4j 数据 库 常 见 的 应 用 场景 包括 社区 网 络 .推荐 引擎 .交通 运输 ,物流 管理 、. 主 数据 管 
理 、 访 问 控制 以 及 欺诈 检测 等 场景 ,具体 介绍 如 下 。 

。 社区 网 络 。 

在 一 个 社区 中 ,人 与 人 之 间 具 有 亲属 .同事 、 朋 友 等 各 种 关系 ,而 每 个 人 又 有 不 同 的 兴趣 
爱好 ,并 且 从 事 着 不 同 的 职业 。 若 是 社区 很 庞大 ,关系 又 纷 经 复杂 ,那么 使 用 一 般 的 关系 型 
数据 库 或 其 他 NoSQL 数据 库 来 管理 的 话 , 是 很 难 厘清 这 些 数据 及 其 关系 的 。 如 果 将 人 、 人 
与 人 之 间 的 关系 数据 以 结 点 和 边 的 形式 存储 在 Neo4j 数据 库 中 ,并 进行 数据 管理 ,这 是 一 件 
极其 容易 的 事情 ,并 且 可 以 将 人 与 人 之 间 的 关系 描述 得 脉络 清楚 。 
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。 推荐 引擎 。 

由 社区 网 络 的 数据 进行 一 定 的 累积 和 沉淀 ,就 可 以 引申 出 一 个 推荐 引擎 。 例 如 ,在 一 个 
电影 社区 中 ,车 可 以 统计 观众 的 观 影 数据 ( 即 电 影院 、 影 片 类 型 以 及 影评 等 数据 ) ,我 们 就 能 
够 做 一 个 电影 社区 推荐 引擎 ,从 而 让 这 些 数 据 产 生 不 可 估量 的 商业 价值 。 例 如 ,当前 有 哪 几 
部 电影 是 被 观众 所 追捧 的 ,而 这 些 电影 还 有 哪些 观众 没有 观看 ,在 已 观看 的 观众 之 中 ,哪些 
观众 是 比较 活跃 的 ,哪些 是 具有 朋友 关系 的 ,这 样 的 话 ,我 们 就 可 以 将 这 几 部 电影 对 各 个 群 
体 进行 有 目的 的 推荐 。 对 于 电影 院 来 说 ,这 无 疑 是 一 种 商业 价值 。 

目前 ,世界 上 拥有 庞大 的 交通 系统 ,如 航运 海运、 铁路 运输 以 及 公路 运输 等 ,任何 一 种 
运输 系统 都 连接 着 世界 各 地 ,大 到 全 球 、 全 国运 输 , 小 到 地 区 ,城市 运输 ,这 其 中 的 运输 工具 、 
线路 、 站 点 以 及 班次 ,调度 等 各 种 数据 ,是 非常 庞大 而 又 纷繁 复杂 的 。 若 将 这 些 数 据 存 储 在 
Neo4j 数据 库 中 ,就 会 显得 脉络 清晰 、 井 然 有 序 。 由 于 图 的 数据 结构 可 以 很 好 地 体现 这 种 数 
据 的 特性 ,通过 图 的 遍历 算法 能 够 很 快 地 计算 出 从 一 个 站 点 到 另 一 个 站 点 的 最 短路 径 。 

。 物流 管理 。 

物流 管理 是 交通 网 络 的 一 个 具体 应 用 。 对 于 一 个 大 型 的 物流 系统 来 说 , 几 秒 钟 就 有 可 
能 增加 成 百 上 千 个 包 衷 。 在 一 个 城市 中 ,一 个 个 包 庄 将 分 布 于 不 同 的 区 域 和 街道 之 中 , 若 要 
使 包 庄 尽快 地 送 达 用 户 手中 ,那么 就 需要 在 包 右 分 拣 中 心 找 出 每 一 个 包 于 配 送 的 最 短路 径 ， 
然后 将 它 分 配 到 不 同 的 配送 点 ,这 时 Neo4j 数据 库 就 可 以 发 挥 它 的 作用 了 。 

。 主 数据 管理 。 

对 于 一 些 结构 化 数据 ,例如 客户 资料 组 织 数据 、 产 品 数据 等 ,车 使 用 Neo4j 来 存储 和 管 
理 的 话 , 则 可 以 很 好 地 避免 数据 僵化 ,并 且 可 以 让 数据 具有 实时 价值 。 无 论 是 自 上 而 下 的 查 
询 , 还 是 使 用 遍历 ,都 可 以 保持 高 效 的 查询 性 能 。 若 使 用 Neo4j 数据 库 的 灵活 属性 管理 数 
据 , 还 可 以 使 数据 能 适应 组 织 及 产品 结构 的 变迁 和 演化 。 

”访问 控制 。 

若是 一 个 拥有 成 千 上 万 用 户 的 大 型 平台 ,并 且 该 平台 中 有 成 倍 的 资源 ,那么 对 于 这 些 资 
源 的 访问 ,就 必须 有 一 个 高 效 的 控制 系统 ,用 于 控制 用 户 对 资源 的 访问 权限 。 这 时 ,我 们 可 
以 使 用 Neo4j 数据 库 来 处 理 这 些 关 联 数据 以 实现 访问 控制 。 

。 欺诈 检测 。 

若 涉 及 银行 卡 、 信 用 卡 的 欺诈 交易 ,或 者 电信 诈骗 事项 ,我 们 可 以 通过 使 用 关联 数据 厘 
清 一 个 账号 或 一 个 电话 号 码 的 关系 和 行为 ,从 而 很 容易 地 在 这 些 关 系 和 行为 中 找 出 某 种 异 
常 举 动 , 因 此 可 以 很 快 地 检测 出 欺诈 或 诈骗 行为 。 使 用 Neo4j 数据 库 建立 欺诈 检测 系统 或 
使 用 关联 数据 来 进行 预测 等 做 法 ,都 是 很 不 错 的 选择 。 

总 而 言 之 ,Neo4 数据 库 不 但 可 以 很 好 地 管理 繁杂 的 关联 数据 ,也 能 适应 大 规模 数据 的 
增长 ,还 能 连接 不 同 领域 的 数据 ,从 而 提供 最 全 面 和 最 快 的 实时 反应 速度 。 


9.2 Neo4j 的 数据 模型 


Neo4j 的 数据 模型 是 遵循 属性 图 模型 来 存储 和 管理 数据 的 。 下 面 , 通 过 一 张 图 介绍 
Neo4j 的 数据 模型 ,具体 如 图 9-1 Bron 。 
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label:Person 


label:Person 
name:B 
hobby:playing 


Dating 


label:Person 


hobby:reading name:D 


dob:1994-09-06, 


Friend Child 


label:Person 
name:F 


label:Person 
name:E 


Marriage 
date:2017-09-09 
place:Shanghai 


9-1 Neo4j 的 数据 模型 


从 图 9-1 中 可 以 看 出 ,Neo4j 数据 模型 是 由 顶点 (vertex) 、 边 (edge) | bi 4$ Clable) .关系 
类 型 以 及 属性 (property) 组 成 的 有 向 图 。 下 面 ,针对 Neo4j 数据 模型 的 组 成 元 素 进行 详细 
介绍 ,具体 如 下 。 

。 顶 点。 

图 9-1 中 的 顶点 是 使 用 圆 来 表示 的 ,顶点 也 可 称 为 结 点 (node) ,所 有 的 结 点 都 是 独立 存 
在 的 。 

。 边 。 

图 9-1 中 的 边 是 使 用 有 向 箭头 表示 的 , 边 也 可 称 为 关系 (relationship) ,关系 是 通过 关系 
类 型 进行 分 组 的 ,类 型 相同 的 关系 则 属于 同一 个 集合 ,因此 关系 类 型 是 必须 要 设置 的 ,并 且 
只 能 设置 一 个 。 需 要 注意 的 是 ,关系 是 有 方向 性 的 ( 即 通过 有 向 箭头 标识 方向 ,若是 双向 关 
系 则 通过 两 个 相反 的 箭头 标识 ) ,关系 的 两 端 是 起 始 结 点 和 结束 结 点 。 

。 标签 。 

图 9-1 中 的 标签 是 使 用 label 表示 的 ,标签 类 似 于 结 点 的 类 型 ,我 们 可 以 为 结 点 设置 任 
意 个 标签 , 若 结 点 拥有 相同 的 标签 , 则 结 点 属于 同一 个 集合 (或 同一 种 类 型 ) 。 

。 关系 类 型 。 

图 9-1 中 的 关系 类 型 是 使 用 Child( 子 女 ) 、Friend( 朋 友 ) 以 及 Stepchild( 继 子 或 继 女 ) 等 
表示 的 ,关系 类 型 主要 用 于 标记 关系 的 类 型 ,多 个 关系 可 以 有 相同 的 关系 类 型 。 

。 属性。 

图 9-1 中 的 属性 是 使 用 键 值 对 表示 的 , 即 *name: A” “hobby: playing” 以 及 “place: 
Shanghai" 用 于 表示 结 点 或 关系 的 属性 。 每 个 结 点 或 关系 可 以 拥有 一 个 或 多 个 属性 。 
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9.3 ”Neo4j 的 部 署 


Neo4j 是 一 个 开源 、 跨 平台 的 数据 库 , 因 此 Neo4j 数据 库 可 以 运行 在 Windows, Linux, Mac 
OS 等 多 个 平台 上 ,为 我 们 提供 数据 库 服 务 。 在 不 同 的 操作 系统 平台 上 ie. 的 部 署 也 会 有 
所 不 同 。 本 节 ,我 们 将 详细 讲解 Neo4j 数据 库 基 于 Windows 平台 和 Linux 平台 的 部 署 。 
9.3.1 基于 Windows 平台 
由 于 Neo4j 数据 库 是 用 Java 语言 开发 的 ,并 且 该 数据 库 的 安装 与 使 用 依赖 Java 环境 ， 
因此 在 安装 Neo4j 数据 库 之 前 ,需要 先 安装 并 配置 好 JDK。 基 于 Windows 平台 的 Neo4j 部 
署 的 具体 步骤 如 下 。 


1. JDK 的 下 载 和 安装 


(D 访问 https://www. oracle. com/java/technologies/javase-downloads. html. 进入 
JDK 版 本 选择 界面 ,下 载 JDK 安装 包 。 本 书 下 载 的 是 jdk 1.11 版 本 , 即 jdk-11.0. 
windows-x64_bin.exe 可 执行 程序 。( 注 意 : 本 书 会 提供 jdk-11.0.6_windows-x6 quies 
可 执行 程序 ) 。 

(2) 双击 下 载 的 JDK 安装 包 jdk-11.0.6_windows-x64_bin.exe 进行 安装 ,并 将 JDK 的 
安装 路 径 即 bin 目录 (JAVA_HOME 和 Path 路 径 ) 添 加 至 系统 环境 变量 中 。 

(3) 在 Windows 的 DOS 窗口 执行 java -version 命令 ,查看 JDK 是 否 安装 成 功 ,效果 如 
图 9-2 所 示 。 


Eri 管理 员 : C\Windows\system32\cmd.exe ct 


图 9-2 查看 JDK 版 本 
从 图 9-2 中 可 以 看 出 ,JDK 的 版 本 号 为 11.0.6 ,说 明 JDK 安装 成 功 。 
2. Neo4j 的 下 载 和 安装 


(1) 访问 Neo4j 官网 https: //neo4j.com/download-center/ ,进入 Neo4j 版 本 选择 界面 
选择 要 下 载 的 Neo4j 版 本 ,具体 如 图 9-3 Bros o 

从 图 9-3 中 可 以 看 出 ,Neo4j 数据 库 的 版 本 分 为 企业 版 ,社区 版 以 及 桌面 版 ,企业 版 需 
要 收费 ,社区 版 免费 开源 ,桌面 版 需要 激活 码 激活 。 由 于 编写 教材 时 的 最 新 版 本 为 4.0.3, 因 
此 这 里 选择 的 是 社区 版 的 Neo4j 4.0.3。 单 击 Community Server 选项 卡 ,选择 Neo4j 4.0.3 
(zip) 安 装 包 进行 下 载 . 如 图 9-4 所 示 。( 注 意 : 本 书 提 供 neo4j-community-4.0.3-windows. 
zip 安装 包 )。 下 载 的 Neo4j 安装 包 如 图 9-5 所 示 。 
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€ > Œ @ neofjcom/download-center/ Hart RNO: 


@neozj PRODUCTS SOLUMONS CUSTOMERS PARTNERS RESOURCES — DEVELOPERS | 


Neo4j Download Center 


Download Neo4j Desktop (i 


Current Releases 
Enterprise Server Community Server Neo4j Desktop 
Neodj Enterprise Edition 4.0.3 
30 March 2020 Release Notes | Read More 
os Download 
NUR CEPS 
SHA 256 
Wi Neo4j 4.0.3 (zip) 
SHA-256 e 


9-3 ”Neo4j 版 本 选择 界面 


EET 


WB Neosj Download Center -Ne- X — 


€ > Œ à neo4jcom/download-center/&community ar ERNO 


@neosj PRODUCTS SOLITONS CUSTOMERS PARTNERS RESOURCES DEVELOPERS | 


Neo4j Download Center 


Current Releases 


Enterprise Server Community Server |) Neo4j Desktop 
Neo4j Community Edition 4.0.3 
30 March 2020 Release Notes | Read More 
C Download 
Linux/Mac. Neodj 403 (tar) 
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s SHA-256 e i 


9-4 Neo4j 版 本 的 下 载 


[= 日 


[ex 十 | 县 计算 机 e PERS (D) > Neodj » “I4|[ 28 neos p 
组 织 ” 包含 到 库 中 ” 共享” 新 建文 件 夫 z- ue 
^ zR 修改 日 其 zm 大 小 
于 计算 机 = = 
2020-04-09 14:58 ”好 压 ZIP ERR 102,973 KB 
& creates (C) 
ca 本 地 磁盘 (D) p 
ca PEES (E) 
- , 


9-5 ”下载 好 的 Neo4j £X & 
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(2) 解压 Neo4j 安装 包 。 
通过 解压 图 9-5 中 的 Neo4j 安装 包 , 完 成 Neo4j 的 安装 。 解 压 后 的 Neo4j 如 图 9-6 
所 示 。 


OO- «eme aiu P neojcommniyA03» -|[ atre mmis P 
组 织 ” — 包 合 到 库 中 — 共享 ” FEHR =- mo 
reum E i 修改 日 其 sm 大 小 d 

mss Ji bin 2020-03-24 18:4 ”文件 夫 
出 certificates 2020-03-24 18:43 x 
as Ji conf 2020-03-24 18:43 ”文件 夫 
JÌ data 2020-03-24 18:43 。 文件 夫 
mum Ji import 2020-03-24 18:43 Si 
ib 2020-03-24 18:44 。 文件 夫 
E, tee (C) A 
Ji logs 2020-03-24 18:43 。 文件 夫 
ca IR (03) Ji plugins 2020-03-24 18443 xi 
ca ERU (E) Ji mn 2020-03-24 18:43 。 文件 夫 
Ej ucENsEba 2020-03-24 18:02 ”文本 文档 36 KB 
Ej ucENsES.« 2020-03-24 18:02 ”文本 文档 145 KB 
Ej] neodj.cer 2020-03-24 18:44 RAES 2KB 
Ej NOTICES 2020-03-24 18:02 ”文本 文档 10KB 
四 README.bt 2020-03-24 18:02 ”文本 文档 2KB 
E upGRADEbt 2020-03-24 18:02 ”文本 文档 1KB ~ 
TR 


图 9-6 解压 后 的 Neo4j 


从 图 9-6 中 可 以 看 出 ,解压 后 的 Neo4j 包含 9 个 文件 夹 .5 个 文件 以 及 一 个 安全 证 书 。 
下 面 ,我 们 通过 一 张 表 来 介绍 Neo4j 安装 文件 夹 中 的 主要 文件 夹 ,具体 如 表 9-1 所 示 。 


表 9-1 Neo4j 解压 包 中 的 主要 文件 夹 


文件 夹 名 称 相关 说 明 
bin 存放 Neo4j 的 可 执行 程序 
conf 存放 Neo4j 启动 的 相关 配置 文件 
data 存放 Neo4j 数据 库 的 核心 文件 
lib 存放 Neo4j 所 依赖 的 jar 包 
logs 存放 Neo4j 的 日 志文 件 
plugins 存放 Neo4j 的 插件 


(3) 启动 Neo4j 服务 。 

在 Neo4j 目录 下 打开 命令 行 窗口 , 即 进入 Neo4j 的 bin 目录 ,在 目录 栏 中 输入 cmd 提示 
符 , 并 按 Enter 键 ,在 当前 路 径 下 打开 命令 行 窗口 ,如 图 9-7 所 示 。 

在 图 9-7 中 ,执行 neo4j.bat console 命令 ,启动 Neo4j, 若 命令 行 窗口 中 出 现 Started, W 
说 明 Neo4j 服务 启动 成 功 ,如 图 9-8 所 示 。 

从 图 9-8 中 可 以 看 出 ,命令 行 窗口 出 现 了 Started, 因 此 说 明 我 们 成 功 启 动 了 Neo4j 服 
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图 


务 。 若 要 关闭 Neo4j 服务 ,只 要 关 


9-8 ”启动 Neo4j 服务 的 效果 


闭 命 令 行 窗 口 即 可 


(4) 通过 Web UI 界面 访问 Neo4j 数据 库 


通过 浏览 器 访问 网 页 http: 
的 Web UI 界面 ,如 图 9-9 所 示 。 


localhost: 7474/( 本 地 IP 十 端口 号 ) ,进入 Neo4j 数据 库 


í Leks] 
@ Neodj Browser x m 
€ Q © localhost7474/browser/ Har ORN 0 
Database access not available. Please use [SEEEIEEEEEE3 io estabish connecton. There's a graph waiting for you. 
Connect to Neo4j Connect URL 
neo4j//localhost7687 
Authentication type 
Username / Password H 
Username 
Password 
L d 


图 9-9 Neo4j 数据 库 的 登录 界面 


从 图 9-9 中 可 以 看 出 ,第 一 次 访问 Neo4j 数据 需要 输入 用 户 名 和 密码 ,默认 用 户 名 和 密 


码 均 为 neo4j. "i Connect 按钮 


,连接 数据 库 。 若 连接 成 功 , 会 要 求 修改 登录 密码 。 这 里 


将 登录 密码 修改 为 itcast, 然 后 单 


E: Change password 按钮 ,修改 密码 并 进入 Neo4j 数据 库 


的 Web UI 主 界面 。Neo4dj 数据 库 的 Web UI 界面 如 图 9-10 所 示 。 


305 


306 


NoSQL 数据 库 技术 与 应 用 
[ere | 
QV neosj@neodj://localhost:7687 x HF 
€ > Q © loclhost7474/browser/ wat ORNO: 


To enjoy the full Neo4j Browser experience, we a 


play start 


neo Learn about Neo4j Jump into code System information 
Agraphepiphanyawaisyou. | | Use Cypher dhe graph query | | Key system health and status 
language. metrics 
Ec Ga Store sizes 


ROS Gre aph 


wir mmm m 


Copyright © Neo Inc 2002-2020 


server connect 


Connected to Neo4j You are connected as user neo; 
Nice to meet you. to nes: //1ocalhost: TEST 


Connection credentials are stored in your web browser. 


9-10  Neo4j 数据 库 的 Web UI 界面 


从 图 9-10 中 的 “You are connected as user neo4j to neo4j://localhost; 7687” 可 以 看 
出 ,我 们 成 功 访问 到 Neo4j 数据 库 。Web UI 界 面 主要 是 由 如 下 4 个 部 分 组 成 。 

* Achill 

Web UI 界面 的 左 侧 是 一 个 工具 栏 面 板 , 面 板 上 有 6 个 按钮 ,从 上 往 下 分 别 表示 数据 
PE ,收藏 文档 ` 云 服务 .浏览 器 设置 .关于 Neo4j。 

。 顶部 。 

WebUI 界面 的 项 部 是 一 个 命令 行 输入 框 ,用 于 执行 相关 命令 或 Cypher 查询 语句 ,命令 
行 输入 框 右 侧 有 三 个 按钮 ,分 别 表示 收藏 .清除 和 执行 操作 。 

。 中 部 。 

Web UI 界面 的 中 间 部 分 是 Neo4j 的 主 界面 ,一 共 包含 三 个 模块 ,分 别 是 Start 
Learning, Write Code、MonitorNeo4j, 其 中 Start Learning 用 于 学 习 和 了 解 Neo4j 的 基本 概 
念 , Write Code 用 于 创建 官方 引导 实例 ,Monitor 用 于 监控 数据 库 的 运行 状态 。 

。 底部 。 

WebUI 界面 的 底部 是 Neo4j 数据 库 连 接 的 相关 信息 。 

至 此 ,我 们 完成 了 基于 Windows 平台 部 署 Neo4j 数据 库 。 

STED: 启动 Neo4j 服务 之 前 , 若 没 有 将 neo4j.psl 文件 中 Import-Module 的 路 径 
修改 为 绝对 路 径 ( 默 认 是 相对 路 径 ), 则 会 出 现 “Import-Module: 未 能 加 载 指定 的 模块 
*NNeo4j-Management. psdl' ,因为 在 任何 模块 目录 中 都 没有 找到 有 效 模块 文件 ”报错 信息 ， 
具体 如 图 9-11 所 示 ( 展 示 部 分 报错 信息 ) 。 

解决 方法 : 首先 进入 Neodj 解压 包 的 bin 目录 下 ,然后 找到 并 编辑 文件 neo4j.psl, 即 修 
改 Import-Module 的 路 径 . 将 默认 的 $PSScriptRoot\Neo4j-Management.psdl 路 径 改 为 D: 
\Neo4j\neo4j-community-4.0.3-windows\neo4j-community-4.0.3\ bin\ Neo4j-Management. 
psdl 路 径 ,保存 并 关闭 文件 neo4j.psl, 最 后 重启 Neo4j 服务 即 可 。 若 安装 的 JDK 版 本 不 是 
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国 SA: C\Windows\System32\cmd.exe l- eE 


connunity-4.8.3-vindousNneo4j-connunity-4.8.3Nbin?neo4j.bat cons 


9-11 启动 Neo4j 服务 的 报错 信息 


1.11 以 上 ,而 是 1.8.0 版 本 , 则 会 出 现 警 告 信 息 “ERROR! Neo4j cannot be started using 
java version 1.8.0 151”, 如 图 9-12 所 示 。 


国 管理 员 : CA Windows System32Vemd.exe aama 


y-4.8.3-vindous neo4j-connunity-4.8.3*bin?neo4j.bat conso 


: ERROR? Neo4j cannot be started using java version 1.8.9_151 
* Please use Oracle(R) Java(TM) 11, OpenJDKCIM> 11 to run Neo4j Server. 
[* Please see https://neo4j.com/docs/ for Neo4j installation instructions. 


D: NNeo4jneo4j-connunit y-4.0.3-vindow. 


图 9-12 JDK 版 本 太 低 导 致 Neo4j 服务 启动 不 成 功 


从 图 9-12 中 可 以 看 出 ,Neo4j 版 本 为 4.0 以 上 , 则 需要 JDK 的 版 本 为 1.11 以 上 才 可 启 

动 成 功 , 因 此 需要 重新 修改 并 配置 JDK 环境 。 若 读者 已 安装 JDK ,并 且 版 本 为 1.11 以 下 ， 

则 需要 将 系统 变量 JAVA_HOME 的 参数 值 改 为 JDK 1.11 的 安装 路 径 即 可 。 由 于 本 书 

JDK 1.11 安装 的 路 径 是 下 : OA 11.0.6. 因 此 JAVA_HOME 的 参数 

值 为 E: NsoftwareNwindowVavaWdk-11.0.6 ,这样 的 话 , 我 们 就 成 功 将 低 版 本 的 JDK 改 为 高 
版 本 的 JDK, 


9.3.2 基于 Linux 平 台 


由 于 root Tr ESAE 出 于 系统 安全 的 考虑 ,需要 新 建 一 个 普通 用 户 操作 
Neo4j 数据 库 , 因 此 基于 Linux 平台 部 署 Neo4j 之 前 ,需要 新 建 一 个 用 户 user_neo4j ,并 对 其 
进行 授权 。 本 教材 在 服务 器 nosql01 上 部 署 Neo4j 数据 库 ( 注 意 : 由 于 社区 版 Neo4j 不 支持 
集群 部 署 ,因此 我 们 只 在 服务 器 nosql01 上 部 署 Neo4j) ,关于 用 户 user_neo4j 的 新 建 和 授权 
果 作 可 参考 第 3 章 3.1.2 节 内 容 , 这 里 不 再 歼 述 。 
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1. JDK 的 下 载 安装 


CD 通过 访问 https://www.oracle.com/java/technologies/javase-downloads. html 进 
A JDK 版 本 选择 界面 ,下 载 JDK 安装 包 。 本 书 下 载 的 是 jdk 1.11 版 本 , 即 jdk-11.0.6_linux- 
x64 bin.tar.gz 安装 包 。( 注 意 : 本 书 会 提供 jdk-11.0.6_linux-x64_bin.tar.gz 安装 包 ) 。 

(2) 上 传 并 解压 JDK 安装 包 , 通 过 SecureCRT 工具 将 JDK 安装 包 上 传 至 服务 器 
nosql01 的 /opt/software/ 目 录 下 ,并 修改 安装 包 的 用 户 和 用 户 组 权限 为 user_neo4j ,然后 解 
压 到 /opt/servers/neo4j_demo 目录 (注意 : 需要 提前 将 neo4j demo 目录 的 用 户 和 用 户 组 
权限 改 为 user_neo4j)。 解 压 安装 包 的 命令 如 下 : 


Star -zxvf jdk-11.0.6 linux-x64 bin.tar.gz -C /opt/servers/neo4j demo/ 


执行 上 述 指令 ,解压 完 JDK 安装 包 后 ,进入 /opt/servers/neo4j_demo 目录 ,如 果 觉 得 
解压 后 的 文件 夹 名 称 过 长 ,可 以 对 文件 夹 进行 重 命名 ,具体 命令 如 下 : 


Smv jdk-11.0.6/ jdk 


(3) 配置 JDK 环境 变量 。 

安装 完 JDK 后 ,还 需要 配置 JDK 环境 变量 。 这 里 是 将 JDK 添加 到 user_neo4j 用 户 的 
环境 变量 中 ,执行 vi 一 /.bash_profile 命令 ,打开 .bash_profile 文件 ,在 文件 底部 添加 如 下 内 
容 即 可 。 


# 配 置 IDK 环境 变量 

export JAVA HOME- /opt/servers/neo4j demo/jdk 

export PATH-$PATH:$JAVA HOME/bin 

export CLASSPATH-.:$JAVA HOME/lib/dt.jar:$JAVA HOME/lib/tools.jar 


在 .bash_profile 文件 中 配置 上 述 JDK 环境 变量 后 (注意 JDK 路 径 ) ,保存 退出 。 然 后 ， 
断 开 SecureCRT 连接 ,再 进行 重新 连接 ,最 后 执行 source 一 /.bash_profile 命令 ,使 配置 文 
件 生效 。 

(4) JDK 环境 验证 。 

在 完成 JDK 的 安装 和 配置 后 ,为 了 检测 安装 效果 ,可 以 输入 如 下 命令 进行 验证 。 


$java -version 


执行 上 述 命令 后 ,如 出 现 如 图 9-13 所 示 的 效果 , 则 说 明 JDK 安装 和 配置 成 功 。 
2. Neo4j 的 下 载 安装 


CD 通过 访问 Neo4j 官网 https://neo4j.com/ download-center/ 下载 Neo4j ,本 教材 下 载 的 
是 社区 版 Neo4j 4.0.3。 (注意 : 本 书 会 提供 neo4j-community-4.0.3-unix.tar.gz 安装 包 ) 。 

(2) 上 传 并 解压 Neo4j 安装 包 , 通 过 SecureCRT 工具 将 Neo4j 安装 包 上 传 至 服务 器 
nosql01 的 /opt/software/ 目 录 下 ,然后 解压 到 /opt/servers/neo4j_demo 目录 。 解 压 安装 包 
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E] 192.168.121.134 - SecureCRT lelak 


es ee Mele 
Enter host <Alt+R> s D 


o4 jánosq 01 | demo 
java version eir, 0. e" *2020- 01-14 
Java(TM) SE Runtime Environment 18.9 (build 11.0.6«8-LTS) 
Java HotSpot(TM) 64-Bit Server VM 18.9 (build 11.0.6«8-LTS, mixed mode) 
[user.neo4j&nosq101 neo4j demo]$ 


VT100 


ssh2: AES-256-CTR 


5, 34 SRows,74 Cols 


A 9-13 JDK 环境 验证 


的 具体 命令 如 下 : 


$sudo tar -zxvf neo4j-community-4.0.3-unix.tar.gz -C /opt/servers/neo4j demo/ 


执行 上 述 指令 ,解压 完 Neo4j 安装 包 后 ,进入 /opt/servers/neo4j_demo 目录 ,将 Neo4j 
安装 目录 修改 为 user_neo4j 的 用 户 和 用 户 组 权限 ,如 果 觉 得 解压 后 的 文件 夹 名 称 过 长 ,可 
以 执行 mv neo4j-community-4.0.3 neo4j-4.0.3 命令 对 文件 夹 进行 重 命名 。 

(3) 配置 Neo4j 环境 变量 。 

安装 Neo4j 后 ,还 需要 配置 Neo4j 环境 变量 。 这 里 将 Neo4j 添加 到 user_neo4j 用 户 的 
环境 变量 中 ,执行 vi 一 /.bash_profile 命令 ,打开 .bash_profile 文件 ,在 文件 底部 添加 如 下 


# 配 置 Neo4j 环境 变量 
export NEO4J HOME=/opt/servers/neo4j demo/neo4j-4.0.3 
export PATH-SPATH:SNEO4J HOME/bin 


fE.bash profile 文件 中 配置 上 述 Neo4j 环境 变量 后 (注意 Neo4j 路 径 ) ,保存 退出 即 可 。 
然后 ,执行 source 一 /.bash_profile 命令 ,使 配置 文件 生效 。 

(4) 启动 Neo4j 服务 。 

启动 Neo4j 服务 的 方式 共有 两 种 , 即 前 台 启 动 Neo4j 服务 和 后 台 启 动 Neo4j 服务 ,这 两 
种 启动 方式 介绍 如 下 : 

O 前 台 启 动 Neo4j 服务 。 

通过 执行 neo4j console fi 前 台 启 动 Neo4j 服务 , 若 Neo4j 服务 端 窗口 出 现 Started. 
则 说 明 Neo4j 服务 启 动 成 功 ,如 图 9-14 所 示 。 

从 图 9-14 中 可 以 看 出 ,Neo4j 服务 端 窗口 出 现 了 Started, 因 此 说 明 我 们 成 功 启 动 了 
Neo4j 服务 。 若 要 关闭 Neo4j 服务 ,只 要 按 组 合 键 Ctrl 十 C 关闭 服务 端 窗口 即 可 。 

© 后 台 启 动 Neo4j 服务 。 

通过 执行 neo4j start 命令 ,后 台 启 动 Neo4j 服务 。 再 执行 neo4j status 命令 ,查看 
Neo4j 服务 的 状态 ,效果 如 图 9-15 所 示 。 

从 图 9-15 中 可 以 看 出 ,执行 neo4 status 命令 后 .出现 了 Neo4j is running at pid 2691, 
因此 说 明 我 们 成 功 启动 Neo4j 服务 。 若 要 关闭 Neo4j 服务 .可 以 执行 neo4j stop 命令 ,关闭 
Neo4j 服务 即 可 。 
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192.168.121.134 - SecureCRT "m! 


user neo4jünosql0i neo4j demo]$ neo4j console 
Directories in use: 


/opt/servers/neo4  demo/neo4-4.0. 3 
Zopt/servers/neo4]. demo/neo4]-4. 0. 3/conf 
/opt/servers/neo4]. demo/neo4]-4.0. 3/1ogs 
/opt/servers/neo4.-demo/neo4]-4.0. 3/plugins 
Jopt/servers/neo4] demo/neo4]-4. 0. 3/import 
/opt /servers/neo4] demo/neo4]-4.0. 3/data 
/opt/servers/neo4] demo/neo4]-4.0. 3/certificates 

run: /opt/servers/neo43. demo/neo4j-4.0. 3/run 

Starting Neo4j. 

WARNING: Max 1024 open files allowed, minimum of 40000 recommended. See the Neo4j manual. 

2020-04-23 03:52:47.455«0000 INFO Neo4j 4.0.3 

2020-04-23 03 -466«0000 INFO Starting... 

2020-04-23 03 .668«0000 INFO Bolt enabled on localhost:7687. 

2020-04-23 03 1669-0000 INFO 

2020-04-23 03:52:53.422«0000 INFO Remote interface available at http://localhost:7474/ 


Ready ssh2: AES-256-CTR. 18, 1 18 Rows, 89 Cols VT100 CAP NUM 
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192.168.121.134 - SecureCRT 
File Edit View Options Transfer Script Tools Window 


Enter host «Alt«R» 


user neo4jG6nosql01 neo4].. neo4j start 
Directories in use: 
: /opt/servers/neo4] demo/neo4-4.0. 3 
/opt /server s /neo4 ] demo/neo4 ]-4. 0. 
/opt/servers/neo4] demo/neo4]-4.0. 
/opt/servers/neo4]. demo/neo4]-4. 0. 
/opt /servers/neo4] demo/neo4]-4.0. 3/ 
Jopt/servers/neo4]-demo/neo4]-4. 0. 3/data 
X 3/certificates 


/opt/servers/neo4]_demo/neo4]-4. 
.3/run 


/opt/servers/neo4]_demo/neo4]-4. 


Started neo4j (pid 2691). It is avai able at http://localhost:7474/ 
There may be a short delay i i lk 
See /opt/servers/neo4j. demo/neo4j-4.0. 3/1ogs/neo4j. 

er neo 0 ]$ neo4j status 


en files alowed, minimum of 40000 recommended. See the Neo4j manual. 


Ready ssh2: AES-256-CTR 18, 34 18 Rows, 89 Cols VT100 CAP NUM 


图 9-15 后 台 启 动 Neo4j 服务 


(5) 通过 Web UI 界面 访问 Neo4j 数据 库 。 

通过 浏览 器 访问 网 站 http://192.168.121.134:7474/ 或 http://nosql01:7474/, 进 入 
Neo4j 的 Web UI 界面。 访问 前 , 先 修改 /opt/servers/neo4j_demo/neo4j-4.0.3/conf{/ 目 录 
下 的 配置 文件 neo4j. conf. Jf # dbms.default_listen_address = 0.0.0.0 和 # dbms. default | 
advertised address = localhost 中 的 注释 符 # 去 掉 , 并 指定 主机 IP, 这 里 的 主机 IP 是 
192.168.121.134; 再 执行 neo4j restart 命令 ,重启 Neo4j 服务 ;然后 访问 网 站 并 进入 Web UI 
界面 。Neo4j 数据 库 的 登录 界面 如 图 9-16 所 示 。 

从 图 9-16 中 可 以 看 出 ,第 一 次 访问 Neo4j 数据 需要 输入 用 户 名 和 密码 ,默认 用 户 名 和 
密码 均 为 neo4j。 单 击 Connect 按钮 ,连接 数据 库 。 若 连接 成 功 , 则 会 要 求 修改 登录 密码 ,这 
里 将 登录 密码 修改 为 itcast, 然 后 单 击 Change password 按钮 ,修改 密码 并 进入 Neo4j 数据 
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PD Neosj Browser x 


:server connect 


Connect to Neo4j 


authenticated connection. 


€ > CQ © 证 全 | 1921681211347474/browser/ 


Database access might require an 
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graph waiting for you. 


Connect URL 
ne04j//192.168.121.1347687 


Authentication type. 


Username / Password. T 
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Password. 


图 9-16 — Neo4j 数据 库 的 登录 界面 


库 的 Web UI 主 界面 。Neo4j 数据 库 的 Web UI 界面 如 图 9-17 所 示 。 


Q9 neodi@neodjW/1921681211: X 


play start 


€ > QC A 不 安全 | 192168.121.1347474/browser/ 


To enjoy the full Neo4j Browser experience, we advise you to use "Neo4j Browser Sync x 


È 


Learn about Neo4j 
A graph epiphany awaits you. 


What is a graph 
database? 
How can | query a 


graph: 
What do people do 
airh Nona 


(neozj 


Jump into code 
Use Cypher, the graph query 
language. 

Code walk- 


throughs 
RDBMS to Graph 


System information 
Key system health and status 


metrics. 


Store sizes 
"V. ID allocation. 
Page ca 


:server connect 


Connected to Neo4j 


Nice to meet you. 


Gstart Learning 


You are connected as user neoj 


Copyright © Neo4j, Inc 2002-2020 


to neo¢j://192. 168. 121. 134: T69T 


Connection credentials are stored in your web browser. 


9-17. Neo4j 数据 库 的 Web UI 界面 


从 图 9-17 中 的 “You are connected as user neo4j to neo4j://192.168.121.134:7687" nf 


以 看 出 ,我 们 成 功 访问 到 Neo4j 数据 库 。 


9.4 ”Neo4j 的 操作 


操作 Neo4j 常用 的 方式 有 两 种 ,一 种 是 Cypher 查询 语言 . 男 一 种 是 Java API。 接 下 来 ， 


本 节 将 针对 这 两 种 方式 进行 详细 讲解 。 
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9.4.1 Neo4j 的 Cypher 操作 


Cypher 是 图 形 存储 数据 库 Neo4j 的 查询 语言 .Cypher 是 通过 模式 匹配 Neo4j 数据 库 
中 的 结 点 和 关系 ,从 而 对 数据 库 Neo4j 中 的 结 点 和 关系 进行 一 系列 的 相关 操作 。 
下 面 ,通过 一 张 表 来 介绍 常用 的 Neo4j 操作 命令 及 其 相关 说 明 , 具 体 如 表 9-2 所 示 。 


表 9-2 常用 的 Neo4j 操作 命令 及 其 相关 说 明 


操作 命令 相关 说 明 

CREATE 创建 结 点 .关系 

MATCH 查找 所 有 符合 给 定 模式 的 结 点 .关系 以 及 属性 数据 
RETURN 返回 查询 结果 

WHERE 过 滤 条 件 ,筛选 出 符合 条 件 的 数据 

DELETE 永久 删除 结 点 和 关系 

REMOVE 删除 结 点 的 属性 


ER 9-2 中 ,我 们 列举 了 6 个 常用 的 Neodj 操作 命令 。 下 面 ,我 们 通过 结合 具体 的 示例 
对 这 些 命令 进行 详细 讲解 ,具体 命令 的 操作 过 程 均 在 Web UI 界面 的 命令 行进 行 。 


1. CREATE 命令 


使 用 CREATE 命令 创建 结 点 .关系 ,具体 语法 如 下 : 


# 创建 带 有 标签 的 结 点 

CREATE («node-name» :«label- name») 

# 创建 带 有 标签 .属性 的 结 点 

CREATE (<node-name>:<label-name> («property- name» :«property- value» ]) 

# 创 建 带 有 标签 的 关系 

CREATE («nodel- name» :«labell- name»)- [(<relationship-name> :<relationship-label-name>) ] 
-> (€node2- name» : « 1abel2-name») 


上 述 语法 中 ,CREATE Jé ££ 45 à KRIMO ; <node-name> RIR Zi M 44 Ff Neodj 
使 用 此 名 称 将 该 结 点 的 详细 信息 存储 在 Database. As 中 ,用 作 Neo4j 数据 库 管 理 ( 注 意 : 不 
能 使 用 结 点 名 称 来 访问 结 点 的 详细 信息 ); 二 label-name 二 表示 标签 名 称 ,是 内 部 结 点 名 称 
的 别名 (注意 : 可 使 用 标签 名 称 访 问 结 点 的 详细 信息 ); 志 property-name 二 表示 属性 名 ; 
— property-value- X zr JA lE fH ; — relationshipzname > K 7R A 4 ; < relationship-label-name 
表示 关系 的 标签 。 

下 面 ,我 们 演示 创建 一 个 结 点 p, 其 中 标签 为 Person ,属性 分 别 为 “name age.hobby”， 
属性 值 分 别 为 "Bob .22 .go dancing”, 具 体 如 下 : 


create (p:Person(name: 'Bob',age:22, hobby: 'go dancing']) 


执行 上 述 命令 后 , Web UI 界面 的 控制 台 返 回 “Added 1 label. created 1 node, set 3 
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properties. completed after 2 ms." fri E ,说明 我 们 新 增 一 个 标签 .创建 一 个 结 点 ,并 设置 了 
三 个 属性 。 

下 面 , 我 们 演示 创建 标签 为 Likes 的 关系 friend, 其 中 起 始 结 点 为 Jac、 属 性 name 为 
Jack, 结 束 结 点 为 Emm、 属 性 name 为 Emma, 具 体 如 下 : 


$create (Jac:Person(name: 'Jack'])- [friend:Likes]-> (Emma:Person{name: 'Emma'}) 


执行 上 述 命令 后 , Web UI 界面 的 控制 台 返 回 “Added 2 labels, created 2 nodes, set 2 
properties.created 1 relationship ,completed after 9 ms.” 人 信息, 说 明 我 们 新 增 两 个 标签 、 创 
建 两 个 结 点 .设置 两 个 属性 .创建 一 个 关系 (注意 : 标签 Person 是 结 点 的 标签 ;标签 Likes 是 
关系 的 标签 ) 。 


2. MATCH 命令 
使 用 MATCH 命令 查找 所 有 符合 给 定 模式 的 结 点 .关系 以 及 属性 数据 ,具体 语法 如 下 : 
MATCH («node-name»:«label-name») 


上 述 语法 中 ,MATCH 是 用 于 查找 所 有 符合 给 定 模式 的 结 点 .关系 以 及 属性 数据 的 命 
令 ; 一 node-name 二 表示 结 点 名 称 ; 一 label-name 二 表示 标签 名 称 。 
下 面 , 我 们 演示 查找 数据 库 中 标签 为 Person 的 结 点 p 的 详细 信息 ,具体 如 下 : 


Smatch (P:Person) 
执行 上 述 命令 后 ,查看 Web UI 界 面 控制 台 的 返回 结果 ,具体 如 图 9-18 所 示 。 
Neo.ClientError.Statement.SyntaxError 


Query cannot conclude with MATCH (must be RETURN or an update clause) (line 1, column 1 (offset: 


"match (p:Person)" 


9-18 HAT match 命令 的 报错 信息 


从 图 9-18 中 可 以 看 出 产生 了 语法 错误 , 若 要 使 用 MATCH 命令 , 则 需要 与 RETURN 
命令 或 更 新 命令 结合 使 用 。 


3. RETURN 命令 


RETURN 命令 返回 查询 结果 ,具体 语法 如 下 : 
RETURN (<node-name> :«property- name») 


上 述 语法 中 ,RETURN Jé HIT E [nl A if Z5 R R3 dg 4 ; < node-name > RIR Hi A A Fr 
< property -name> Xr JB TEZ 。 
下 面 ,我 们 演示 返回 属性 为 age 的 结 点 p 的 所 有 信息 ,具体 如 下 : 
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$return p.age 
执行 上 述 命令 后 ,查看 Web UI 界面 控制 台 的 返回 结果 ,具体 如 图 9-19 所 示 。 
Neo.ClientError.Statement.SyntaxError 


Variable ^p^ not defined (line 1, column 8 (offset: 7)) 
"return p.age" 
^ 


9-19. HiT return 命令 报错 


从 图 9-19 中 可 以 看 出 产生 了 语法 错误 , 若 要 使 用 RETURN 命令 , 则 需要 与 METCH 
命令 或 CREATE 命令 结合 使 用 。 
下 面 ,我 们 演示 查询 数据 库 中 结 点 p 的 详细 信息 ,具体 如 下 : 


Smatch (p:Person) return p.name,p.age,p.hobby 


执行 上 述 命令 后 ,查看 Web UI 界面 控制 台 的 返回 结果 ,具体 如 图 9-20 Bron 


neo4j$ match (p:Person) return p.name,p.age,p.hobby i 9 2 ^ O!X 
p.name p.age p.hobby 
Table 
A — "Bo 22 "go dancing" 
Text 
"Jack" null null 
国 
Code 
"Emma" null null 


图 9-20 查询 结 点 p 的 详细 信息 


从 图 9-20 中 可 以 看 出 , 结 点 p 拥 有 三 个 属性 ,分 别 为 name、age、hobby, 属 性 值 有 三 行 ， 
分 别 为 Bob、22、go dancing,Jack、null .null,Emma、null、.null。 若 要 使 用 RETURN 命令 , 则 
需要 与 METCH 命令 或 CREATE 命令 结合 使 用 。 

下 面 ,我 们 演示 查询 数据 库 中 所 有 结 点 的 详细 信息 ,具体 如 下 : 


Smatch (n) returnn 


执行 上 述 命 令 后 ,查看 Web UI 界面 控制 台 的 返回 结果 ,具体 如 图 9-21 所 示 。 

从 图 9-21 中 可 以 看 出 ,Neo4j 数据 库 中 拥有 三 个 结 点 ,分 别 为 Jack、Emma、Bob, 其 中 
Emma 和 Jack 是 Likes 关系 。 若 要 查看 各 个 结 点 的 属性 和 标签 , 则 可 以 单 击 选中 的 结 点 进 
行 查看 , 结 点 的 信息 会 在 控制 台 的 最 底部 显示 。 


4. WHERE 命令 


使 用 WHERE 命令 查询 符合 条 件 的 数据 ,具体 语法 如 下 : 
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图 9-21 查询 数据 库 中 的 所 有 结 点 数据 


WHERE <condition> 


上 述 语法 中 ,WHERE 是 用 于 查询 符合 条 件 的 数据 的 命令 ,该 命令 需要 与 MATCH 命 
SM RETURN 命令 结合 使 用 ;二 condition 二 表示 查询 的 条 件 。 
下 面 ,我们 演示 查询 符合 条 件 p.name 二 'Bob' 的 结 点 详细 信息 ,具体 如 下 : 


Smatch (p:Person) where p.name='Bob' return p 


执行 上 述 命 令 后 ,查看 Web UI 界面 控制 台 的 返回 结果 ,具体 如 图 9-22 所 示 。 


neo4j$ match (p:Person) where p.name-'Bob' return p 二 | 办 ^ OO X 
9, 
Graph 
Table { 
A "name": "Bob", 
Text "age": 22, 
"hobby": "go dancing" 
5 } 
Code 


922 ”查询 符合 条 件 的 结 点 详细 信息 


从 图 9-22 中 可 以 看 出 ,标签 Person 中 属性 name 为 Bob 的 结 点 的 详细 信息 。 即 结 点 p 
有 具有 三 个 属性 ,分 别 是 name、age 以 及 hobby, 对 应 的 值 分 别 是 Bob、22 以 及 go dancing。 


5. DELETE 命令 


使 用 DELETE 命令 永久 的 删除 结 点 或 关系 ,具体 语法 如 下 : 


坦 删 除 结 点 


DELETE «node-name-list» 
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# 删 除 结 点 及 关联 的 关系 


DELETE <nodel-name>,<node2-name>, <relationship-name> 


上 述 语法 中 ,DELETE 是 用 于 永久 删除 结 点 或 关系 的 命令 ,该 命令 需要 与 MATCH 
命令 结合 使 用 ; 二 node-name -list 二 表示 结 点 名 称 列 表 ; < relationship name > K 7R $ I 
名 称 。 

TF ifii ,我们 演示 删除 属性 name 为 Bob 的 结 点 ,具体 如 下 : 


Smatch (p(name: 'Bob')) delete p 


执行 上 述 命令 后 ,Web UI 界面 的 控制 台 返 回 “Deleted 1 node. completed after 2 ms." 
信息 ,说 明 我 们 删除 了 一 个 结 点 。 

执行 match (p: Person) return p 命令 ,然后 查看 Web UI 界面 控制 台 的 返回 结果 , 具 
体 如 图 9-23 所 示 。 


1604j$ match (p:Person) return p " 9. ^|0O 
«D Gr» 

E gm ccu 

EH 

Table 

A e 

Text 

加 

Code 


图 9-23 查看 属性 name 为 Bob 的 结 点 是 否 被 删除 


从 图 9-23 中 可 以 看 出 ,Neo4j 数据 库 中 已 经 不 存在 属性 name 为 Bob 的 结 点 了 ,因此 说 
明 属性 name 为 Bob 的 结 点 已 经 被 成 功 删 除 。 若 要 清空 数据 库 中 的 结 点 或 者 关系 , 则 可 以 
执行 match (n) detach delete n 命令 ,但 是 该 命令 要 慎 用 。 

下 面 ,我 们 演示 删除 属性 name 分 别 为 Jack 和 Emma 的 结 点 以 及 相关 联 的 关系 ,具体 
命令 如 下 : 


Smatch (Jac(name: 'Jack')) - [friend]-> (Emm(name: 'Emma'}) delete Jac, Emm, friend 


执行 上 述 命令 后 ,Web UI 界 面 的 控制 台 返回 “Deleted 2 nodes. deleted 1 relationship. 
completed after 3 ms. "信息, 说明 我 们 删除 了 两 个 结 点 ,一 个 关系 。 

执行 match (Jac: Person)-[ friend ]-7» (Emm: Person) return friend 命令 ,然后 查看 
Web UI 界面 控制 台 的 返回 信息 - Hl" Cno changes. no records)”, 说 明 属 性 名 分 别 为 Jack 和 
Emma 的 结 点 以 及 关系 friend 均 被 成 功 删 除 。 


6. REMOVE 命令 


使 用 REMOVE 命令 删除 结 点 的 属性 ,具体 语法 如 下 : 
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# 删 除 结 点 的 属性 
REMOVE «property-name-list» 


上 述 语法 中 ,REMOVE 是 用 于 删除 结 点 的 属性 的 命令 ,该 命令 需要 与 MATCH 命令 
结合 使 用 ;二 property-name-list 二 表示 结 点 的 属性 名 称 列表 。 

下 面 ,我 们 演示 删除 结 点 的 属性 hobby, 由 于 上 述 内 容 中 删除 了 数据 库 中 的 所 有 结 点 ， 
导致 数据 库 中 无 任何 结 点 ,因此 ,需要 先 执行 创建 结 点 的 命令 ,然后 再 执行 删除 属性 hobby 
的 命令 ,具体 如 下 : 


$create (p:Person(name: 'Bob',age:22, hobby: 'go dancing')) 
$match (p:Person) remove p.hobby 


执行 上 述 命 令 后 ,Web UI 界面 的 控制 台 返 回 “Set 1 property. completed after 4 ms." 
信息 ,说 明 有 一 个 属性 被 修改 了 , 即 删除 一 个 属性 。 

执行 match (p: Person) return p 命令 ,然后 查看 Web UI 界面 控制 台 的 返回 结果 , 具 
体 如 图 9-24 所 示 。 


neo4j$ match (n) return n Sjer allox 


9-24 ”执行 查看 结 点 p 命令 后 的 返回 结果 


从 图 9-24 中 可 以 看 出 , 结 点 的 属性 hobby 已 经 不 存在 数据 库 中 ,因此 说 明 我 们 成 功 删 
除 结 点 的 属性 hobby。 为 了 便于 后 续 操 作 Neo4j 数据 库 , 这 里 我 们 执行 match (n) detach 
delete n 命令 ,清空 Neo4j 数据 库 中 的 结 点 和 关系 数据 。 


9.4.2 Neo4j 的 Java API 操作 


目前 Java 的 主流 开发 工具 主要 有 两 种 : Eclipse 和 IDEA. 这 里 我 们 选择 IDEA 工具 来 
编写 Java 代码 ,来 操作 Neo4j 数据 库 中 的 结 点 .关系 和 属性 。 


1. 创建 Java 项 目 


打开 IDEA 工具 , 单 击 Create New Project Maven. 3€ f£ 6] ££ —^* Maven 项 目 , 单 击 
Next 按钮 ,添加 Maven 项 目的 名 称 和 存储 路 径 , 如 图 9-25 所 示 。 
在 图 9-25 中 , 单 击 Finish 按钮 ,完成 Maven 项 目的 创建 ,效果 如 图 9-26 所 示 。 
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Location | ENdatavdeaprojectswmosqLchapter09 


> Artifact Coordinates 


图 9-25 新 建 Maven MA 


图 9-26 创建 好 的 Maven MA 


2. 导入 Jar 包 


在 项 目 nosql_chapter09 中 配置 pom. xml 文件 ,也 就 是 引入 单元 测试 依赖 和 Neo4j 相 
关 的 依赖 , 当 添 加 完 相 关 依赖 后 ,Maven 项 目的 相关 Jar 包 就 会 自动 下 载 。pom.xml 文件 添 
加 的 内 容 具 体 如 下 : 


3. 创建 Java 类 ,连接 Neo4j 


在 项 目 nosql_chapter09 目录 /src/main/java 下 创建 一 个 名 为 com.itcast.neo4j 的 包 ， 
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并 在 该 包 下 创建 Neo4jTest.java 文件 ,该 文件 用 于 创建 Neo4j 数据 库 连 接 并 实现 Neo4j 数 
据 库 相关 操作 ,具体 代码 如 文件 9-1 所 示 。 
文件 9-1 Neo4jTest.java 


package com.itcast.neo4j; 
import org.junit.Test; 
import org.neo4j.driver.* ; 
public class Neo4jTest ( 
private static Session session -GraphDatabase.driver("bolt://192.168.121.134:7687", 


AuthTokens.basic("neo4j","itcast")).session(); 


- o Oc o & Qu 


$ 


在 上 述 代码 中 ,第 5.6 行 代码 通过 指定 Neo4j 数据 库 地 址 及 认证 的 用 户 名 和 密码 创建 
Neo4j 数据 库 连接 会 话 对 象 session, 


4. 查看 数据 库 中 的 数据 


在 Neo4jTest.java 中 ,定义 一 个 matchReturnTest() 方 法 ,用 于 查看 Neo4j 数据 库 中 的 
数据 ,具体 代码 如 下 : 


1 @Test 

2 public void matchReturnTest(){ 

3 Result result =session.run("match (n) return n"); 
4 while (result.hasNext())( 

5 Record record -result.next(); 

6 System.out.println(record); 

7 ) 

8 session.close(); 
9 


} 


在 上 述 代码 中 ,第 3 行 代码 通过 会 话 对 象 session 调用 run() 方 法 ,执行 查看 数据 库 数 
据 的 CQL 语句 ,并 将 结果 存放 到 result 结果 集中 ;第 4 一 7 行 代 码 遍 历 并 输出 结果 集 result 
中 的 数据 ;第 8 行 代码 通过 会 话 对 象 session 调用 close() 方 法 ,关闭 会 话 。 

运行 matchReturnTest() 方 法 ,实现 查看 Neo4j 数据 库 中 数据 的 操作 ,然后 查看 IDEA 
工具 的 控制 台 输出 ,效果 如 图 9-27 所 示 。 


b ^ v Tests passed: 1 of st-574ms 

n | | E:NsoftwareNwindowVjavaVjdk-11.0.6VbinVjava.exe ... 

8 4H 16, 2020 2:52:26 下 午 org.neo4j.driver.internal.logging.JULogger info 

信息 : Direct driver instance 2063763486 created for server address 192.168.121.140:7687 


"uu 
@| | Process finished with exit code 9 


E &TODO I Terminal ^4 Build E Q Messages 


9-27 ”查看 Neo4j 数据 库 中 的 数据 


从 图 9-27 中 可 以 看 出 ,运行 matchReturnTest() 方 法 后 ,控制 台 没 有 输出 结果 ,因此 说 
明 Neo4j 数据 库 为 空 。 
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5. 创建 结 点 


在 Neo4jTest.java 中 ,定义 一 个 createTest() 方 法 ,用 于 在 Neo4j 数据 库 中 创建 结 点 , 具 
体 代 码 如 下 : 


@Test 
public void createTest()( 
session.run("create (Dav:Person(name: 'David',age:20,hobby: 'painting', 


gender: 'male'])"); 


basketball',gender: 'male'])"); 
session.run("create (Gra:Person(name: 'Grace',age:18,hobby: 'singing', 


I 

2 

3 

4 

i session.run("create (Jor:Person(name: 'Jordan',age:22, hobby: 'playing 
6 

m 

8 gender: 'female'})"); 

3 


session.run("create (Jac:Person{name: 'Jack',age:20, hobby: 'swimming', 
10 gender: 'male'])- [friend:Likes]-» (Emm: Person(name: 'Emma', 
11 age:18, hobby: 'reading? novels',gender:'female'])"); 
22 session.close(); 


在 上 述 代码 中 ,第 3 一 8 行 代码 通过 会 话 对 象 session 调用 run() 方 法 ,执行 创建 结 点 的 
CQL 语句 ,创建 三 个 包含 标签 和 属性 的 结 点 ;第 9 —11 行 代码 通过 会 话 对 象 session 调用 
run() 方 法 ,执行 创建 具有 关系 的 结 点 的 CQL 语句 , 即 创建 两 个 结 点 ,并 且 这 两 个 结 点 的 关 
系 是 friend, 关 系 标签 是 Likes; 第 12 行 代码 通过 会 话 对 象 session 调用 close() 方 法 ,关闭 
会 话 。 

运行 createTest() 方 法 ,实现 创建 结 点 操作 ;然后 运行 matchReturnTest() 方 法 ,查看 结 
点 是 否 创建 成 功 ;最 后 查看 IDEA 工具 的 控制 台 输 出 ,效果 如 图 9-28 所 示 。 


bp |» v Tests passed: 1 of 1 test—593ms 

5g E:\software\window\java\jdk-11.0.6\bin\java.exe ..- 

o AH 16, 2020 4:03:50 T'F org.neo4j.driver.internal.logging.JULogger info 
信息 : Direct driver instance 2063763486 created for server address 192.168.121.140:7687 
Record«(n: node«0»)» s 


Record«(n: node«1»)» 


Record«(n: node<2>}> 
Record«(n: node«3»)» 
Record«(n: node<4>}> 


Process finished with exit code 9 
E &TODO E Terminal ^ Build 


9-28 ”查看 Neo4j 数据 库 中 的 数据 


从 图 9-28 中 可 以 看 出 ,运行 matchReturnTest() 方 法 后 ,控制 台 输 出 5 条 记录 ,因此 说 
明 我 们 创建 结 点 成 功 ， nd 点 的 id 45 0.1,2,3,.4. 


6. 查看 结 点 


在 Neo4jTest.java 中 ,定义 一 个 whereTest () 方 法 ,用 于 按 条 件 查 询 结 点 的 详细 信息 ， 
具体 代码 如 下 : 


第 9 章 图 形 存储 数据 库 Neo4j 


在 上 述 代 码 中 ,第 3.4 行 代码 通过 会 话 对 象 session 调用 run() 方 法 ,执行 按 条 件 查 询 
结 点 详细 信息 的 CQL 语句 ,查询 符合 条 件 的 结 点 ,并 将 返回 的 结 点 详细 信息 存放 到 result 
结果 集中 ;第 5—7 行 代码 遍历 并 输出 结果 集 result 中 的 数据 ;第 9 行 代码 通过 会 话 对 象 
session 调用 close() 方 法 ,关闭 会 话 。 

运行 whereTest () 方 法 ,实现 按 条 件 查询 结 点 详细 信息 ,然后 查看 IDEA 工具 的 控制 台 
输出 ,效果 如 图 9-29 所 示 。 


» w Tests passed: 1 of 1 test - 607 ms. 


E: VsoftwareWwindowjavaVjdk-11.0.6 bin Vjava.exe ... 

AH 16, 2020 4:21:54 下 午 org.neo4j.driver.internal.logging.JULogger info 

信息 : Direct driver instance 1603198149 created for server address 192.168.121.140:7687 
Record«(p.name: "David", p.age: 20, p.hobby: "painting", p.gender: "male"]» 
Record«(p.name: "Jordan", p.age: 22, p.hobby: "playing basketball", p.gender: "male")» 
Record«(p.name: "Jack", p.age: 20, p.hobby: "swimming", p.gender: "male"]» 


=~ h ig e o 


Process finished with exit code 0 


E 9-29 按 条 件 查询 结 点 ,并 返回 结 点 详细 信息 


从 图 9-29 中 可 以 看 出 ,符合 查询 条 件 属性 gender 为 male 的 结 点 共有 三 个 ,并 且 这 三 
个 结 点 的 详细 信息 均 已 输出 。 


7. 删除 结 点 


在 Neo4jTest.java 中 ,定义 一 个 deleteTest() 方 法 ,用 于 删除 具有 关系 的 结 点 ,具体 代 
码 如 下 : 
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在 上 述 代码 中 ,第 3 行 代码 通过 会 话 对 象 session 调用 run() 方 法 ,执行 删除 结 点 的 
CQL 语句 ,将 具有 关系 的 结 点 Jac 和 Emm 以 及 相关 联 的 关系 删除 ;第 4 一 8 行 代码 通过 会 
话 对 象 session 调用 run() 方 法 ,执行 查看 全 部 结 点 的 CQL 语句 ,查询 是 否 已 成 功 删 除 具 有 
关系 的 结 点 并 遍历 输出 查询 结果 ;第 9 行 代码 通过 会 话 对 象 session 调用 close() 方 法 ,关闭 
会 话 。 

运行 deleteTest() 方 法 ,实现 删除 结 点 操作 ;然后 查看 IDEA 工具 的 控制 台 输 出 ,效果 
如 图 9-30 所 示 。 


b» v Tests passed: 1 of 1 test— 686ms 
9 NE E:\software\window\java\jdk-11.8.6\bin\java.exe ... 
AH 16, 2020 4:51:05 下 午 org.neo4j.driver.internal.logging.JULogger info 
信息 : Direct driver instance 1603198149 created for server address 192.168.121.140:7687 


Record«(p.name: "David")» 
Record«(p.name: "Jordan")» 
Record«(p.name: "Grace"]» 
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图 9-30” 按 条 件 查 询 结 点 的 返回 结果 


从 图 9-30 中 可 以 看 出 ,Neo4 数据 库 中 只 有 三 个 结 点 ,并 不 存在 结 点 Jac 和 Emm, 因 此 
可 以 说 明 我 们 成 功 删除 具有 关系 的 结 点 Jac 和 Emm. 


8. 移 除 属性 


在 Neo4jTest.java 中 ,定义 一 个 removeTest() 方 法 ,用 于 移 除 结 点 中 的 属性 ,具体 代码 
如 下 : 


QTest 
public void removeTest() { 
Result result -session.run("match (píname:'David']) remove p.hobby 


return p.name,p.age, p.hobby, p.gender"); 


Record record -result.next(); 
System.out.println(record):; 
E 


m 

2 

3 

4 

5 while (result.hasNext()){ 
6 

7 

8 

9 session.close(); 


10 ) 


在 上 述 代码 中 ,第 3、4 行 代码 通过 会 话 对 象 session 调用 runO Zr i ,执行 移 除 属 性 的 
CQL 语句 , 即 移 除 属性 名 为 David 结 点 的 属性 hobby, 返 回 David 结 点 的 详细 信息 ,并 存放 
到 result 结果 集中 ;第 5 一 8 行 代码 遍历 并 输出 结果 集 result 中 的 数据 ,从 而 验证 是 否 成 功 
移 除 结 点 中 的 属性 hobby; 第 9 行 代码 通过 会 话 对 象 session 调用 close() 方 法 ,关闭 会 话 。 

运行 removeTest () 方 法 ,实现 移 除 属性 操作 ;然后 查看 IDEA 工具 的 控制 台 输 出 ,效果 
如 图 9-31 所 示 。 

从 图 9-31 中 可 以 看 出 , 结 点 David 的 属性 hobby 的 值 为 null, 因 此 说 明 我 们 成 功 移 除 
属性 hobby。 


ay 
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bb >” v Tests passed: 1 of 1 test- 816ms 

3 ~] E:\software\window\java\jdk-11.0.6\bin\java.exe ... 

8 AH 17, 2020 2:12:09 下 午 org.neo4j.driver.internal.logging.JULogger info 
信息 : Direct driver instance 1603198149 created for server address 192.168.121.140:7687 
Record«(p.name: "David", p.age: 20, p.hobby: NULL, p.gender: "male")» 


Process finished with exit code 0 
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9-31 移 除 属性 后 的 返回 结果 


STED: 通过 Java API 操作 Neo4j 数据 库 时 ,若是 出 现 “! Error: Java: 不 再 支持 
源 选项 5。 请 使 用 6 或 更 高 版 本 。” 报 错 信 息 时 , 则 需要 配置 项 目 中 的 JDK 版 本 ,配置 后 , 重 
新 操作 Neodj 数据 库 即 可 。JDK 版 本 的 配置 步骤 如 下 : 

1. 单 击 IDEA 工具 栏 File 选项 ,选择 Setting 一 Build，Execution，Deployment > 
Compiler—Java Compiler, 配 置 JDK 版 本 ,然后 保存 并 退出 ,具体 如 图 9-32 所 示 。 


Build, Execution, Deployment > Compiler > Java Compiler © Fer current project 
Use compiler: | Javac ~ 
EZ Use '—-release' option for cross-compilation (Java 9 and later) 


Target bytecode version 十 
Ws, cq _chapter09 


A 9-32 配置 Setting 中 的 JDK 版 本 


2. 单 击 IDEA 工具 栏 File 选项 ,选择 Project Structure Project 和 Modules ,配置 JDK 
版 本 ,然后 保存 并 退出 ,具体 如 图 9-33、 图 9-34 所 示 。 


t Project name: 
nosqLchapter09 
Project Settings 
Project SDK: 
Modules This SDK is default for all project modules. 
pa A module specific SDK can be configured for each of the modules as required. 
varies quem hs 
RE 11 (java version "11.0.6") j| New. || Edit | 
Facets 
RE. Project language level: 


This language level is default for all project modules. 
Platform Settings. \\ A module specific language level can be configured for each of the modules as required. 


SDKs 11 - Local variable syntax for lambda parameters x] 
Global Libraries 

Project compiler output 

This path is used to store all project compilation results. 
Problems A directory corresponding to each module is created under this path. 


This directory contains two subdirectories: Production and Test for production code and test sources, respectively. 
A module specific compiler output path can be configured for each of the modules as required. 


EAdataVdeaProjectsWosql chapterü9Vout. k 


© [ok] one 
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eor to Ce PEET 
nosql_chapter09 
Project Settings i: 5 
a Sources Paths Dependencies 
| vcducs  — — [1 -toca variable syntax for lambda parameters ~ 
Libraries 
Markas: B Sources Tests BrResources 路 Test Resources MM Excluded 
Artifacts Y MEMdataldeaprojects\nosql_chapter09 + Add Content Root 
Platform Settings ， m EA.-IdeaProjectsynosql chaptero9 
sre 
SDKs > matarget Source Folders 
Global Libraries 9 src\main\java. 
Test Source Folders 
Problems srcvtestjava 
Resource Folders 
src\main\resources 
Excluded Folders 
| target 
Exclude files: 
| Use ; to separate name patterns, * for any 
number of symbols, ? for one. 


图 9-34 配置 Project Structure 中 的 JDK 版 本 


9.5 Jk 


本 章 讲解 了 图 形 存储 数据 库 Neo4j 相关 的 知识 。 首 先 介 绍 Neo4j, Neo4j 特点 、Neo4j 
应 用 场景 ,让 读者 认识 Neo4j 数据 库 ; 其 次 介绍 Neodj 的 数据 模型 ,使 读者 了 解 到 Neo4j 的 
数据 存储 ;接着 介绍 Neo4j 的 部 署 ,希望 读者 务必 要 亲手 实践 并 牢记 Neodj 的 部 署 ; 最 后 介 
绍 Neo4j 的 操作 ,读者 可 以 掌握 如 何 通过 Cypher 和 Java API 操作 Neo4j 数据 库 。 通 过 阅 
读本 章 , 读 者 可 以 快速 有 效 地 了 解 Neo4j, 从 而 更 好 、 更 高 效 地 使 用 Neo4j。 


9.6 课 后 习题 


一 、 填空 题 

1. 图 形 存储 数据 库 是 数据 库 的 一 种 类 型 。 

2. Neo4j 公司 从 2003 年 开始 研发 数据 库 。 

3. 实体 被 视 为 图 形 的 ,关系 被 视 为 图 形 的 “ 边 ”。 


4. Neo4j 数据 库 使 用 的 查询 语言 e 
5. Neo4j 数据 库 可 以 运行 在 Windows, -Mac OS 等 多 个 平台 上 。 


二 、 判 断 题 


1. Neo4j 不 支持 ACID 事务 。 

2. Neo4j 数据 库 是 用 Java 语言 开发 的 。 

3. 社区 版 的 Neo4j 支持 集群 部 署 。 

4. Neo4j 版 本 为 4.0 以 上 , 则 需要 版 本 为 1.8 以 上 的 JDK 环境 。 
5. Neo4j 的 数据 模型 是 遵循 属性 图 模型 来 存储 和 管理 数据 的 。 


一 一 一 一 一 
Wer NE NEAN Se 
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三 、 选 择 题 
1. 下 列 数据 库 中 ,( ) 不 是 图 形 存储 数据 库 。 
A. Neo4j B. FlockDB C. HBase D. AllegroGrap 
2. 下 列 选项 中 ,( ORF Neo4j 的 特点 。 
A. 读 写 数据 慢 B. 设计 复杂 
C. 易 用 性 差 D. 资源 丰富 
3. 下 列 选项 中 ,( ) 不 属于 Neo4j 应 用 场景 。 
A. 推荐 引擎 B. 会 话 存储 C. 交通 运输 D. 欺诈 检测 
、 简 答题 
简 述 Neo4j 的 数据 模型 。 
五 、 编 程 题 


通过 Neo4j 的 Java API 编程 ,实现 以 下 的 操作 : 

COD 创建 一 个 标签 为 Person 、 属 性 为 name、 属 性 值 为 Mary 的 结 点 p。 
(2) 查看 结 点 p 的 详细 信息 。 

G) 删除 结 点 p. 
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学 习 目 标 


。 了 解 系统 架构 

。 掌握 Spark 计算 框架 的 部 署 

。 掌握 构建 项 目 结构 模块 

。 掌握 数据 采集 模块 的 实现 方法 
。 掌握 数据 分 析 模块 的 实现 方法 
。 掌握 数据 展示 模块 的 实现 方法 


MongoDB 数据 库 的 应 用 场合 十 分 广泛 ,本章 将 利用 MongoDB 十 Spark 十 Java Web 技 
术 开 发 二 手 房 交易 数据 分 析 系 统 , 用 于 对 二 手 房 交 易 数据 进行 分 析 并 展示 。 


10.1 系统 概述 


10.1.1 系统 背景 介绍 


近年 来 , 随 着 社会 的 不 断 发 展 , 人 们 对 于 海量 数据 的 挖掘 和 运用 越 来 越 重 视 , 互 联网 是 
面向 全 社会 公众 进行 信息 交流 的 平台 , 现 已 成 为 了 收集 信息 的 最 佳 渠道 。 同 时 ,伴随 着 大 数 
据 技术 的 创新 与 应 用 ,互联 网 为 人 们 进行 大 数据 统计 分 析 进 一 步 提供 了 便利 。 

大 数据 信息 的 统计 分 析 可 以 为 决策 者 提供 充实 的 依据 。 例 如 , 近 些 年 国内 房地产 行业 
发 展 势头 迅猛 ,二 手 房 的 需求 成 为 了 一 种 新 热门 。 本 项 目 分 析 的 是 某 房屋 交易 网 站 “二 手 房 
交易 价格 ”的 业务 数据 ,其 数据 的 相关 分 析 可 以 为 未 来 二 手 房 业务 的 发 展 提供 参考 和 指导 。 


10.1.2 系统 架构 设计 


实际 开发 中 ,首要 任务 通常 是 明确 分 析 目 的 , 即 想 要 从 大 量 数 据 中 得 到 什么 类 型 的 结 
果 , 并 进行 展示 说 明 。 只 有 在 明确 了 分 析 目 的 后 ,开发 人 员 才 能 准确 地 根据 具体 的 需求 去 过 
滤 数 据 , 并 通过 大 数据 技术 进行 数据 分 析 和 处 理 , 最 终 将 处 理 结 果 持 久 化 并 以 图 表 等 可 视 化 
形式 展示 出 来 。 

为 了 让 读者 更 清晰 地 了 解 二 手 房 交易 数据 分 析 系 统 的 流程 及 架构 ,下 面 通过 图 10-1 来 
描述 该 系统 的 架构 图 。 

从 图 10-1 中 可 以 看 出 ,本 系统 所 需 的 数据 来 源 于 二 手 房 交易 网 站 ,该 网 站 中 包含 了 众 
多 房 源 的 详细 信息 。 在 本 系统 中 ,我 们 通过 WebMagic(Java MERHER) à 5 I] 2 NER fi 
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späť 


读 取 数 据 存储 分 析 结果 


Ca 采集 数据 存储 数据 数据 可 视 化 
j.p. gor 


二 手 房 交 易 网 站 二 手 房 交易 数据 MongoDB Web 
图 10-1 二 手 房 交 易 数 据 分 析 系 统 的 架构 


采集 北京 市 二 手 房 交 易 数据 ,将 采集 的 数据 存储 到 MongoDB 数据 库 中 。 当 数据 采集 完成 
后 ,利用 Spark 计算 框架 读 取 MongoDB 中 存储 的 二 手 房 交 易 数 据 , 并 进行 离线 分 析 , 最 后 
将 分 析 结 果 存 储 到 MongoDB 数据 库 中 。 为 了 可 以 更 加 直观 地 查看 分 析 结 果 , 我 们 通过 
Web 系统 获取 MongoDB 数据 库 中 存储 的 分 析 结 果 ,实现 数据 的 可 视 化 。 
10.1.3 系统 预览 

系统 通过 采集 北京 市 二 手 房 交易 数据 ,计算 每 个 区 二 手 房 交易 数据 的 平均 价格 ,最终 以 
图 表 的 形式 展示 在 Web 页 面 中 ,实际 效果 如 图 10-2 所 示 。 


C 88 | Q localhost8080/avgpricejsp 9ge»rosusz 


HU EHb DE — FRSSELR ER ME 


150,000 


平台 区 ”丰台 区 ”东城 区 SEZ 。 延庆 区 PAZ WAA GRUE AUE EWE SFE C XXE ”通州 区 ”顺义 区 ”海淀 区 EzE 


10-2. 北京 各 地 区 二 手 房 平 均 房 价 


在 图 10-2 中 , 纵 轴 表 示 房 价 , 横 轴 表 示 北 京 市 各 个 区 。 
在 数据 可 视 化 平台 中 ,可 以 展示 各 种 业务 数据 ,读者 可 自行 添加 需求 ,在 Web 页 面 中 展 
示 其 运行 效果 即 可 。 


10.2 Spark 计算 框架 


Spark 于 2009 年 诞生 于 美国 加 州 大 学 伯克利 分 校 的 AMP 实验 室 , 它 是 一 个 可 应 用 于 
大 规模 数据 处 理 的 统一 分 析 引 擎 。Spark 不 仅 计算 速度 快 ,而 且 内 置 了 丰富 的 API, 使 得 我 
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们 能 够 更 加 容易 地 编写 程序 。 本 节 我 们 将 介绍 Spark 计算 框架 以 及 Spark 集群 部 署 的 相关 
步骤 。 


10.2.1 Spark 简介 


Spark 计算 框架 在 处 理 数据 时 ,所 有 的 中 间 数 据 都 保存 在 内 存 中 。 正 是 由 于 Spark 充 
分 利用 内 存 对 数据 进行 计算 ,从 而 减少 磁盘 读 写 操作 , 增 大 了 框架 计算 效率 。 同 时 Spark 还 
兼容 HDFS Hive, 可 以 很 好 地 与 Hadoop 系统 融合 ,从 而 弥补 MapReduce 高 延迟 的 性 能 缺 
点 。 所 以 说 ,Spark 是 一 个 更 加 快速 .高效 的 大 数据 计算 平台 。Spark 具有 速度 快 , 易 用 性 、 
通用 性 .兼容 性 好 等 显著 特点 。 

Spark 部 署 模式 分 为 Local 模式 (本 地 单机 模式 ) 和 集群 模式 ,在 Local 模式 下 ,常用 于 
本 地 开发 程序 与 测试 ,而 集群 模式 又 分 为 Standalone 模式 (集群 单机 模式 )、Yarn 模式 和 
Mesos 模式 ,关于 这 三 种 集群 模式 的 相关 介绍 具体 如 下 。 


1. Standalone 模式 


Standalone 模式 被 称 为 集群 单机 模式 。Spark 框架 与 Hadoop1.0 版 本 框架 类 似 , 本 身 
都 白带 了 完整 的 资源 调度 管理 服务 ,可 以 独立 部 署 到 一 个 集群 中 ,不 依赖 任何 其 他 的 资源 管 
理 系 统 。 在 该 模式 下 ,Spark 集群 架构 为 主 从 模式 , 即 一 台 Master 结 点 与 多 台 Slave 结 点 。 


2. Yarn 模式 


Yarn 模式 被 称 为 Spark on Yarn 模式 , 即 把 Spark 作为 一 个 客户 端 , 将 作业 提交 给 
Yarn 服务 。 由 于 在 生产 环境 中 ,很 多 时 候 都 要 与 Hadoop 使 用 同一 个 集群 ,因此 采用 Yarn 
来 管理 资源 调度 ,可 以 有 效 提高 资源 利用 率 。Yarn 模式 又 分 为 Yarn Cluster 模式 和 Yarn 
Client 模式 ,具体 介绍 如 下 : 

。 Yarn Cluster: 用 于 生产 环境 ,所 有 的 资源 调度 和 计算 都 在 集群 上 运行 。 

* Yarn Client; 用 于 交互 ,调试 环境 。 


3. Mesos 模式 


Mesos 模式 被 称 为 Spark on Mesos 模式 ,Mesos 与 Yarn 同样 是 一 款 资 源 调 度 管理 系 
统 , 可 以 为 Spark 提供 服务 。 由 于 Spark 与 Mesos 存在 密切 的 关系 .因此 在 设计 Spark 框架 
时 充分 考虑 到 了 对 Mesos 的 集成 ,但 如 果 同 时 运行 Hadoop 和 Spark, 从 兼容 性 的 角度 来 
看 ,Spark on Yarn 是 更 好 的 选择 。 

上 述 三 种 分 布 式 部 署 方案 各 有 利弊 ,通常 需要 根据 实际 情况 决定 采用 哪 种 方案 。 本 章 
采用 常用 的 Yarn 模式 部 署 Spark 集群 。 


10.22 Spark 部 署 与 启动 


这 里 直接 使 用 5.5 节 部 署 的 分 片 集群 作为 基础 环境 ,部 署 Yarn 模式 下 的 Spark 集群 ， 
Spark 集群 中 各 结 点 具体 的 规划 如 表 10-1 所 示 。 
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表 10-1 Spark 集群 规划 
虚拟 机 名 称 IP 地 址 主机 名 服务 进程 


ResourceManager, DataNode , NodeManager , NameNode, 


NoSQL 1 192.168.121.134 nosql01 
Master 


NoSQL 2 192.168.121.135 nosql02 | DataNode, NodeManager SecondaryNameNode, Worker 


NoSQL 3 192.168.121.136 nosql03 | DataNode, NodeManager, Worker 


从 表 10-1 中 可 以 看 出 ,我 们 要 规划 的 Spark 集群 包含 一 台 Master 结 点 和 两 台 Slave 结 
点 。 其 中 ,服务 器 nosql01 是 Master 结 点 ,nosql02 和 nosql03 是 Slave Zl 
接 下 来 ,将 分 步骤 讲解 Spark 集群 的 安装 与 配置 ,具体 步骤 如 下 。 


1. SSH 免 密 登录 配置 


配置 SSH 免 密 登 录 的 目的 是 后 期 在 启动 Hadoop、Spark 等 集群 时 不 需要 频繁 地 输入 
密码 , 便 可 以 直接 登录 到 其 他 的 结 点 上 。SSH 免 密 登录 配置 步骤 具体 如 下 : 

CD 在 Spark 集群 主 结 点 服务 器 nosql01 上 ,输入 ssh-keygen -t rsa 命令 生成 密 钥 ,并 
根据 提示 ,不 用 输入 任何 内 容 ,连续 按 4 次 Enter 键 确认 即 可 ,效果 如 图 10-3 所 示 。 


图 192.168.121.134 - SecureCRT 一 口 X 
RINENENGQUERME Ee Rap RU Wee Hie 


Enter ile Fn n which to to pns the key (/ (/home/user. mongo/. ssh/id rsa): 
Enter passphrase (empty for .no passphrase): 

Enter same passphrase ag again 

Your identification has heen saved in /home/user. mongo/. ssh/id. rsa. 
Your public key has been saved in /home/user mongo/.Ssh/id rsa.pub. 
The Key fingerprint is 
14:2c:18:a8:fa:04:69:4d:ae:0b:4a:de:el:05:47:fb user_mongoenosq101 
"key Y randomart image is: 


The 
-CR 


Ready ssh2: AES-256-CTR. 22, 27 22 Rows, 69 Cols  VT100 CAP 


图 10-3 ”生成 密 钥 


运行 生成 密 钥 命令 ,在 服务 器 nosql01 的 /home/user_mongo/ 目 录 下 生成 一 个 包含 有 
秘 钥 文件 的 隐藏 目录 .ssh。 进 入 .ssh 隐藏 目录 ,执行 1 -a 命令 查看 当前 目录 的 所 有 文件 ( 包 
括 隐藏 文件 ) ,如 图 10-4 所 示 。 

在 图 10-4 中 ,隐藏 目录 .ssh 下 的 文件 id_rsa 为 当前 虚拟 机 的 私 钥 ,id_rsa.pub 为 公 

(2) 在 生成 秘 钥 文件 的 服务 器 nosql01 上 ,执行 相关 命令 将 公 \ 铀 复制 到 需要 关联 的 服务 
器 上 (包括 本 机 ) ,具体 命令 如 下 : 
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192.168.121.134 - SecureCRT - n x 
SEE pk Tus Wee nie 


E] 

à 

E user mongo&no: ~ 
User mongo&nosQlOl ss -a 

5 g q his f 

Ẹ (total 1 


drwx------ 2 user_mongo user_mongo 54 Apr 25 14:30 . 

drwx - 3 user mongo user mongo 123 Apr 23 12:56 

- i user_mongo user_mongo 1675 Apr 25 14:30 id rsa 

- 1 user mongo user_mongo 400 apr 25 14:30 id_rsa. pub 

-- er_mongo user mongo 370 Apr 23 09:25 known hosts 
luser mongoénosq Ol ssh]$ 图 
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10-4” 密 钥 文 件 


# 复 制 公 钥 到 本 机 
$ssh-copy-id nosq101 

# 复 制 公 钥 到 服务 器 nosq102 
$ssh-copy-id nosq102 

# 复 制 公 钥 到 服务 器 nosql03 
$ssh-copy- id nosq103 


复制 公 钥 的 操作 ,需要 输入 对 应 服务 器 中 用 户 user_mongo 的 密码 。 完 成 复制 公 钥 的 
操作 后 ,在 服务 器 nosql01 中 输入 命令 ssh nosql02 访问 服务 器 nosql02 ,此 时 便 不 再 需要 输 
入 密码 即 可 直接 访问 服务 器 nosql02( 要 关闭 访问 ,可 执行 exit 命令 )。 

上 述 操作 实现 了 单 向 免 密 登录 , 即 仅 实现 在 服务 器 nosql01 中 可 以 免 密 登 录 其 他 服务 
器 ,如 需要 集群 中 的 所 有 服务 器 间 都 可 以 免 密 登录 , 则 在 服务 器 nosql01 中 执行 相关 命令 将 
服务 器 nosql01 中 目录 .ssh 下 的 文件 分 发 到 需要 关联 的 服务 器 nosql02 和 nosql03 上 ,具体 
命令 如 下 ( 注 : 此 步骤 为 非 必要 操作 ) ; 


$scp -r /home/user mongo/.ssh/* user mongo@nosql02:/home/user mongo/ 


$scp -r /home/user mongo/.ssh/* user mongoG8nosq103:/home/user mongo/ 


至 此 ,服务 器 nosql01,nosql02 和 nosql03 免 密 登录 全 部 完成 。 
2. 下 载 并 安装 JDK 


由 于 Spark 集群 依赖 Java 环境 ,因此 在 部 署 Spark 集群 前 ,需要 先 安装 并 配置 好 JDK。 

接 下 来 ,在 规划 的 Spark 集群 主 结 点 服务 器 nosql01 上 分 步骤 演示 如 何 安装 和 配 
置 JDK。 

(1) 下 载 JDK 安装 包 。 

访问 https://www. oracle. com/java/technologies/javase/javase8-archive-downloads. 
html FZ& Linux 系统 下 的 JDK 安装 包 。 本 书 案例 下 载 的 是 jdk-8u161-linux-x64.tar.gz 安 
X. 

(2) 安装 JDK。 

使 用 SecureCRT 远程 工具 连接 服务 器 nosql01, 将 下 载 的 jdk-8ul61-linux-x64.tar.gz 


$103 ”综合 案例 
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安装 包 通 过 sudo rz 命令 上 传 到 的 /opt/software/ 目 录 下 ,上 传 完成 后 将 安装 包 通 过 “sudo 
chown user mongo: user mongo /opt/software/jdk-8ul61-linux-x64.tar.gz” 命 令 将 JDK 
安装 包 修 改 为 user mongo 用 户 权限 ,具体 效果 如 图 10-5 Bros o 


ES 192.168.121.134 - SecureCRT t x 


ReTERIVewT Opin Tani We Help 
á Enter host <Alt+R> 


pecu x | 9 192.168.121.135 | 8 192.168.121.136 4» 


er mongoénosqT0l software]$ TT ^ 
total 298556 
-rw-r--r- ong 
Tu r--r-- i user mongo user. ng 


ii mongoenosq101 software]$ B 


EX og 


Ready ssh2: AES-256-CTR. 6, 32 10 Rows, 85 Cols VT100 CAP NUM 


10-5 上 传 JDK 安装 包 


从 图 10-5 中 可 以 看 出 ,在 目录 /opt/software/ 下 存在 JDK 安装 包 , 并 且 用 户 权限 为 用 
P user_mongo, 说 明成 功 上 传 JDK 安装 包 并 修改 用 户 权限 。 

通过 解压 JDK 安装 包 的 方式 安装 JDK, 将 JDK 安装 包 和 解压 到 目录 /opt/servers/ 
mongodb_demo/shardcluster 下 ,具体 命令 如 下 : 


Star -zxvf /opt/software/jdk-8ul6l-linux-x64.tar.gz -C /opt/servers/mongodb demo/ 
shardcluster 


(D 配置 JDK 环境 变量 。 
JDK 安装 完成 后 ,还 要 将 JDK 配置 到 用 户 环 境 变量 中 。 使 用 vi 一 /.bash_profile 命令 
编辑 user_mongo 用 户 环境 配置 文件 ,在 文件 .bash_profile 末尾 追加 下 面 内 容 : 


# 配 置 JDK 环境 变量 

export JAVA HOME=/opt/servers/mongodb demo/shardcluster/jdk1.8.0 161 
export PATH-$PATH:$JAVA HOME/bin 

export CLASSPATH-.:$JAVA HOME/lib/dt.jar:$JAVA HOME/lib/tools.jar 


ERER JDK 环境 变量 配置 后 (注意 本 地 安装 的 JDK 路 径 是 否 与 上 述 内 容 一 致 ) , 保 
存 、 退 出 即 可 。 执 行 source 一 /.bash_profile 命令 初始 化 用 户 环境 变量 ,使 配置 内 容 生效 。 

(D JDK 环境 验证 。 

完成 JDK 的 安装 和 配置 后 ,为 了 检测 安装 效果 ,可 以 输入 如 下 命令 进行 验证 ， 


$java -version 


执行 上 述 命令 后 ,如 果 出 现 如 图 10-6 所 示 的 效果 , 则 说 明 JDK 安装 和 配置 成 功 。 

在 完成 服务 器 nosql01 的 JDK 安装 配置 后 .将 服务 器 nosql01 上 的 用 户 环境 配置 文件 
.bash_profile 和 JDK 安装 目录 分 发 到 服务 器 nosql02 和 nosql03 上 ,完成 服务 器 nosql02 和 
nosql03 的 JDK 安装 和 配置 ,具体 命令 如 下 : 
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192.168.121.134 - SecureCRT 


A ee serit Tool: Window: help 


AB suf 98 


cm 134 x Ls | 192.168.121.136 


y 
d 
h 1.8.0.1: java -version 

Ë || java version "1.8.0. 161" 

F Java(TM) SE Runtime Environment (build 1.8.0 161-b12 


) 
Java HOtSpot(TM) 64-Bit Server VM (build 25.161-b12, mixed mode) B 
[user_mongoenosq101 jdk1.8.0 161]$ x 
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10-6 JDK 环境 验证 


考分 发 用 户 环境 配置 文件 
$scp -/.bash profile user mongoenosq102:~/ 


$scp -/.bash profile user mongo8nosq103:-/ 
HDR IDK 安装 目录 


$scp -r /opt/servers/mongodb demo/shardcluster/jdk1.8.0 161/ user mongoenosq102 
Jopt/servers/mongodb demo/shardcluster/ 


$scp -r /opt/servers/mongodb demo/shardcluster/jdk1.8.0 161/ user mongo68nosq103 
J/opt/servers/mongodb demo/shardcluster/ 


为 了 使 用 户 环 境 配置 文件 .bash_profile 生效 ,上 述 命令 执行 成 功 后 ,需要 在 服务 器 
nosql02 和 服务 器 nosql03 上 执行 source 一 /.bash_profile 命令 初始 化 用 户 环境 变量 。 


3. Hadoop 集群 搭建 


由 于 本 章 采 用 Yarn 模式 部 署 Spark 集群 (Spark on Yarn) ,因此 在 部 署 Spark 集群 前 ， 
需要 先 部 署 Hadoop 集群 。 接 下 来 ,以 服务 器 nosql01 为 例 ,讲解 如 何 部 署 Hadoop 集群 

(1) 下 载 Hadoop 安装 包 。 

访问 https://archive.apache.org/dist/hadoop/common/ F € Linux 系统 下 的 Hadoop 
安装 包 。 本 书 使 用 的 是 hadoop-2.7.4.tar.gz 安装 包 。 

(2) 安装 Hadoop。 


使 用 SecureC RT 远程 工具 连接 服务 器 nosql01 ,将 下 载 的 hadoop-2.7.4.tar.gz 安装 包 通 
过 sudo rz 命令 上 传 到 /opt/software/ 目 录 下 ,上传 完成 后 将 安装 包 通 过 "sudo chown user 


mongo: user mongo /opt/software/hadoop-2.7.4.tar.gz" fii 4 Y Hadoop 安装 包 修 改 为 用 
P! user_mongo 权限 ,具体 效果 如 图 10-7 所 示 。 


192.168.121.134 - SecureCRT 


File Edit View Options Transfer Script Tools Window Help 


Enter host <Alt+R> * Ea 


| 192.168.121. 134 x | 192.168.121.135 | +? 192.168.121.136 


user E a 01 software 
total 558996 


r user monqo user mongo 266658029 Apr 14 2018 hadoop -2-7-4 tar gd 
-rw-r orgo org v 


5 1 IXE 
zer --r-- 1 user_mongo user monjo 115960131 Jan 910: :49 iongodb- linux-x86 4 pss 
tgz 

[user mongoénosqlO1 software]$ 
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图 10-7 .Ef£ Hadoop 安装 包 
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从 图 10-7 中 可 以 看 出 ,在 目录 /opt/software/ 下 存在 Hadoop 安装 包 , 并 且 用 户 权 限 为 
用 户 user_mongo ,说 明成 功 上 传 Hadoop 安装 包 并 修改 用 户 权 限 。 

通过 解压 Hadoop 安装 包 的 方式 安装 Hadoop. $f Hadoop 安装 包 解 压 到 目录 /opt/ 
servers/mongodb demo/shardcluster F ,具体 命令 如 下 : 


Star -zxvf /opt/software/hadoop-2.7.4.tar.gz -C /opt/servers/mongodb demo 
/shardcluster/ 


(3) 配置 Hadoop 环境 变量 
Hadoop 安装 完成 后 ,还 需要 将 Hadoop 配置 到 用 户 环境 变量 中 。 使 用 vi ~/.bash_ 
profile 命令 编辑 user_mongo 用 户 环境 配置 文件 ,在 文件 .bash_profile 末尾 追加 下 面 内 容 


# 配 置 Hadoop 系统 环境 变量 
export HADOOP HOME=/opt/servers/mongodb demo/shardcluster/hadoop-2.7.4 
export PATH-$PATH:S$HADOOP HOME/bin:$HADOOP HOME/sbin 


完成 上 述 Hadoop 环境 变量 配置 后 (注意 本 地 安装 的 Hadoop 路 径 是 否 与 上 述 内 容 一 
致 ) ,保存 退出 即 可 。 执 行 source 一 /.bash_profile 命令 初始 化 用 户 环境 变量 ,使 配置 内 容 
生效 。 

(4) Hadoop 环境 验证 。 

完成 Hadoop 的 安装 和 配置 后 ,为 了 检测 安装 效果 ,可 以 输入 如 下 命令 进行 验证 : 


Shadoop version 


执行 上 述 命令 后 ,如 果 出 现 如 图 10-8 所 示 的 效果 , 则 说 明 Hadoop 安装 和 配置 成 功 。 


图 192.168.121.134 - SecureCRT 


I 
Enter host <Alt+R> < 


W192168121134 x | 192.168.121.135 | 4? 192.168.121.136 
江 


impii kshvachk on 2017-08-01T00:297 
Compiled with protoc 2.5.0 
From source with checksum 50b0468318b4ce9bd24dc467b7ce1148 
This command was run using /opt/servers/mongodb. demo/shardcluster /hadoop-2.7.4/share/hadoop/common/had 


p conmon- 2.7.4, jar E 
[rtr mongoónosqi 1 hadoop-2.7.4]$ - 
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图 10-8 Hadoop 环境 验证 


从 图 10-8 中 可 以 看 出 ,当前 Hadoop 版 本 为 2.7.4, 因 此 说 明 Hadoop 安装 成 功 。 

(5) Hadoop 集群 配置 。 

(D 修改 文件 yarn-env.sh。 

进入 Hadoop 安装 目录 下 的 etc/hadoop/ 目 录 ( 该 目录 存放 Hadoop 相关 配置 文件 ) ,使 
用 vi yarn-env.sh 命令 编辑 文件 yarn-env.sh, 将 文件 内 默认 的 JAVA_HOME 参数 修改 为 
本 地 安装 JDK 的 路 径 , 如 图 10-9 所 示 。 
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g 0 ma; tTini 
export YARN. CONF. DIR-"$(YARN. CONF. DIR:-$HADOOP YARN. HOME /conf]" 


[export JAVA-HOME-/opt/servers/mongodb. demo/shardcTuster7]dki.8.0 161 
z 


#echo "run java in $3AVA HOME" 
TDAVA_HONE-SAVA HOME 


if [ "$3AVA HOME" = "" ]; then 
echo "Error: JAVA HOME is not set." 
nu 1 


JAVA-$3AVA HOME /bin/- dava 
JAVA. HEAP. MAX--Xmx1. 


* For setting YARN specific HEAP sizes please use this 
* Parameter and set appropriately 
# YARN HEAPSIZE-1000 


# check envvars which might override default args 
if [ "SYARN HEAPSIZE" != "" ]; n 
po P ACHRAP-MAXET X "S YARM, HEAPSIZE""m 


# Resource Manager specific parameters 


一 INSERT — 
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图 10-9 修改 yarn-env.sh 文件 


从 图 10-9 中 可 以 看 出 ,文件 yarn-env.sh 的 JDK 环境 变量 修改 为 本 地 安装 的 JDK 路 
径 , 说 明成 功 配置 Yarn 运行 时 需要 的 JDK 环境 变量 。 

参照 修改 文件 yarn-env. sh 修改 JDK 环境 变量 的 方式 ,对 文件 mapred-env.sh 和 
hadoop-env.sh 中 JDK 环境 变量 进行 修改 ,配置 MapReduce 和 Hadoop 运行 时 需要 的 JDK 
环境 变量 ,如 图 10-10 和 图 10-11 所 示 。 


192.168.121.134 - SecureCRT 


| 192.168.121.134 x | 4? 192.168.121.135 | @ 192.168.121.136 tih 


Licensed to the Apache software Foundation (ASF) under one or more ^ 
contributor license agreements. See the NOTICE file distributed with 

this work for additional information regarding copyright ownership. 

The ASF licenses this file to You under the Apache License, version 2.0 

(the "License"); you may not use this file except in compliance with 

the License. You may obtain a copy of the License at 


http://www. apache. org/licenses/LICENSE-2.0 


Unless required by applicable law or agreed to in writing, software 
distributed under the License is distributed on an "AS IS" BASIS, 
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 
See the License for the specific language governing permissions and 
limitations under the License. 


[export JAVA HOME-/opt/servers/mongodb demo/shardcluster/jdk1.8.0 161 


export HADOOP. JOB. HISTORYSERVER. HEAPSIZE-1000 


DIXIT 


export HADOOP. MAPRED. ROOT. LOGGER-INFO,RFA 


#export HADOOP. JOB. HISTORYSERVER. OPTS- 
Mexport HADOOP MAPRED. LOG. DIR-"" # where log files are stored.  $HADOOP MAPRED HOME/l 
ogs by default. 

#export HADOOP. JHS LOGGER-INFO,RFA # Hadoop Jobsummary logger. 

#export HADOOP MAPRED PID DIR- # The pid files are stored. /tmp by default. 

#export HADOOP MAPRED IDENT STRING- #A string representing this instance of hadoop. $ 


USER by default 

#export HADOOP MAPRED NICENESS- The scheduling priority for daemons. Defaults to 0. |. 

一 INSERT — s 
Ready ssh2: AES-256-CTR — 16, 69 30Rows 85 Cols VT100 CAP NUM 


10-10 ”修改 mapred-env.sh 文件 
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Licensed to the Apache software Foundation (ASF) under one ^ 
or more contributor license agreements. See the NOTICE file 

distributed with this work for additional information 

regarding copyright ownership. The ASF licenses this file 

to you under the Apache License, version 2.0 (the 

License"); you may not use this file except in compliance 

with the License. You may obtain a copy of the License at 


EDU o ses 


http://www. apache. org/licenses/LICENSE-2.0 


unless required by applicable law or agreed to in writing, software 
distributed under the License is distributed on an "AS IS" BASIS, 
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 
See the License for the specific language governing permissions ai 
limitations under the License. 


Set Hadoop-specific environment variables here. 


The only required environment variable is JAVA HOME. All others are 
optional. when running a distributed configuration it is best to 
set JAVA HOME in this file, so that it is correctly defined on 
remote nodes. 


export JAVA. HOM 'opt/servers/mongodb. demo/shar dc uster /jdk1.8.0. 16: 


# The jsvc implementation to use. Jsvc is required to run secure datanodes 
# that bind to privileged ports to provide authentication of data transfer 
# protocol. Jsvc is not required if SASL is configured for authentication of 


-- INSERT — y 


Ready ssh2: AES-256-CTR. 25, 69 30 Rows, 85 Cols VT100 CAP NUM 
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10-11 修改 hadoop-env.sh 文件 


© 修改 文件 core-site.xml。 
文件 core-site. xml 是 Hadoop 的 核心 配置 文件 ,通过 vi 命令 编辑 该 配置 文件 ,在 
去 configuration 之 标签 中 添加 如 下 配置 内 容 : 


<!- -用 于 设置 Hadoop 的 文件 系统 ,由 URI 指定 --> 
«property» 
«name» fs.defaultFS« /name> 
<!-- 用 于 指定 namenode 地 址 在 hadoop01 机 器 上 --> 
«value»hdfs://nosq101:9000« /value» 
</property> 
<!- -配置 Hadoop 的 临时 目录 ,默认 /tmp/hadoop- S${user.name} --> 
<property> 
<name>hadoop.tmp.dir</name> 
<value> /opt/servers/mongodb demo/shardcluster/hadoop-2.7.4/tmp< /value> 
</property> 


在 上 述 核 心 配 置 文件 中 ,配置 了 Hadoop 的 主 进程 NameNode 运行 主机 (也 就 是 此 次 
Hadoop 集群 的 主 结 点 位 置 ) ,同时 配置 了 Hadoop 运行 时 生成 数据 的 临时 目录 。 

@ 修改 文件 hdfs-site.xml。 

文件 hdfs-site. xml 用 于 配置 HDFS 相关 内 容 , 通 过 vi 命令 编辑 该 配置 文件 ,在 
— configuration > b & rp 8 Jn dn F Be EP E: 


<!-- 指 定 HDFS 副本 的 数量 --> 
«property» 
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«name»dfs.replication« /name» 
«value»2«/value» 
</property> 
<!--secondary namenode 所 在 主机 的 ip 和 端口 --> 
«property» 
«name» d£s .namenode. secondary .http- address« /name» 
«value»nosq102:50090« /value» 
</property> 


在 上 述 配置 文件 中 ,配置 了 HDFS 数据 块 的 副本 数量 (默认 值 就 为 3) ,并 根据 需要 设置 
了 Secondary NameNode 所 在 服务 的 HTTP 协议 地 址 。 这 里 没有 配置 namenode 和 
datanode 的 数据 存放 目录 ,默认 情况 下 会 自动 在 Hadoop 配置 的 临时 目录 下 创建 。 

CD 修改 文件 mapred-site.xml。 

文件 mapred-site.xml 是 MapReduce 的 核心 配置 文件 ,用 于 指定 MapReduce 运行 时 框 
架 。 在 etc/hadoop/ 目 录 中 默认 没有 该 文件 ,需要 先 通过 “cp mapred-site. xml. template 
mapred-site.xml” 命 令 将 文件 复制 并 重 命 名 为 mapred-site. xml。 然 后 通过 vi 命令 编辑 
mapred-site.xml 文件 来 进行 配置 ,在 过 configuration 之 标签 中 添加 如 下 配置 内 容 : 


<!-- 指 定 MapReduce 运行 时 框架 ,这 里 指定 在 Yarn 上 ,默认 是 local --> 
«property» 
<name>mapreduce . framework .name< /name> 
<value>yarn</value> 


</property> 


在 上 述 配 置 文件 中 ,就 是 指定 了 Hadoop 的 MapReduce 运行 框架 为 Yarn。 

© 修改 文件 yarn-site.xml。 

文件 yarn-site.xml 是 Yarn 框架 的 核心 配置 文件 ,需要 指定 Yarn 集群 的 管理 者 。 通 过 
vi 命令 编辑 该 配置 文件 ,添加 如 下 配置 内 容 : 


<!-- 指 定 Yarn 集群 的 管理 者 (ResourceManager) 的 地 址 --> 
«property» 
«name» yarn.resourcemanager.hostname« /name> 
«value»nosql01«/value» 
</property> 
<property> 
«name» yarn.nodemanager.aux-services« /name» 
«value»mapreduce shuffle«/value» 


</property> 


在 上 述 配 置 文件 中 ,配置 了 YARN 的 主 进程 ResourceManager 运行 在 服务 器 nosql01， 
同时 配置 了 NodeManager 运行 时 的 附属 服务 ,需要 配置 为 mapreduce_shuffle 才能 正常 运 
行 MapReduce 默认 程序 。 

© 修改 文件 slaves; 
文件 slaves 用 于 记录 Hadoop 集群 所 有 从 结 点 (DataNode 和 NodeManager) 的 主机 名 ， 
日 来 配合 一 键 启动 脚本 启动 集群 中 所 有 从 结 点 。 打 开 该 配置 文件 ,删除 文件 中 默认 的 
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localhost, 配 置 如 下 内 容 。 


在 上 述 配 置 文件 中 ,配置 了 Hadoop 集群 所 有 从 结 点 的 主机 名 nosql01、nosql02 和 
nosql03。 

(6) 分 发 Hadoop 文件 。 

完成 服务 器 nosql01 上 Hadoop 的 安装 配置 后 ,还 要 将 服务 器 nosql01 上 的 用 户 环境 配 
置 文件 和 Hadoop 安装 目录 分 发 到 集群 中 服务 器 nosql02 和 nosql03 上 ,对 这 两 台 服 务 器 进 
行 Hadoop 安装 和 配置 ,在 服务 器 nosql01 上 执行 如 下 命令 : 


执行 完 上 述 命令 后 ,还 需要 分 别 在 服务 器 nosql02 和 服务 器 nosql03 上 执行 source 一 /. 
bash_profile 命令 初始 化 用 户 环境 变量 。 

(7) 格式 化 文件 系统 。 

通过 前 面 步骤 的 操作 ,完成 对 Hadoop 集群 的 安装 和 配置 。 在 启动 Hadoop 集群 前 , 需 
要 对 Hadoop 集群 的 主 结 点 进行 格式 化 处 理 ( 仅 限于 初次 启动 Hadoop 集群 ), 具 体 命令 
如 下 : 


执行 格式 化 命令 后 ,如 格式 化 信息 中 出 现 successfully formatted 的 内 容 表 示 格 式 化 成 
功 ,如 图 10-12 所 示 。 

格式 化 成 功 后 便 可 以 正常 启动 Hadoop 集群 。 

(8) 启动 和 关闭 Hadoop 集群 。 

使 用 脚本 一 键 启动 Hadoop 集群 ,可 以 选择 在 主 结 点 (服务 器 nosql01) 上 以 如 下 方式 进 
行 启动 。 

启动 所 有 HDFS 服务 进程 ,命令 如 下 : 


启动 所 有 YARN 服务 进程 ,命令 如 下 : 


上 述 使 用 脚本 一 键 启动 的 方式 ,首先 启动 Hadoop 集群 中 所 有 HDFS 服务 进程 ,然后 启 
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图 192168121. 134 - SecureCRT - 口 X 
ie Ed View Opíon. Ter Seipt Tools Widow Hep 


FLAIX Enter host <Alt+R> 


W192.168.121.134 x |% 192.168.121.135 | @ 192.168.121.136 


10 ^ 
20/04/25 20:32:20 INFO metrics.TopMetrics: NNTop conf: dfs.namenode.top.num.users = 10 
20/04/25 20:32:20 INFO metrics.TopMetrics: NNTop conf: dfs.namenode.top.windows.minutes = 1, 
5,25 


20/04/25 20:32:20 INFO namenode.FSNamesystem: Retry cache on namenode is enabled 

20/04/25 20:32:20 INFO namenode. Ponamesystem: Retry cache will use 0.03 of total heap and re 

try cache entry expiry time is 600000 millis 

20/04/25 20:32:20 INFO util.GSet: Computing capacity | for map NameNodeRetryCache 

20/04/25 20:32:20 INFO util.GSet: VM type 

20/04/25 20:32:20 INFO util.GSet: 0. 0385599993202477465 max memory 889 MB = 273.1 KB 

20/04/25 20:32:20 INFO util.GSet: capacity = 2^15 = 32768 entries 

20/04/25 20:32:20 INFO namenode.FSImage: Allocated new BlockPoolId: BP-216225926-192.168.121 

.134-1587817940962 

20/04/25 20:32:21 INFO common. Storage: 

ter/hadoop-2.7.4/tmp/dfs/name has been[s 

20/04/25 20:32:21 INFO namenode.FSIi made 
s 


ervers /mongodb demo/shardclus 

msa file /opt/servers/mongod 
b. demo/shardcluster /hadoop-2.7.4/tmp. /fsimag 0000000000000000000 using 
no compression 
20/04/25 20:32:21 INFO namenode.FSImageFormatProtobuf: Image file /opt/servers/mongodb demo/ 
shardcluster /hadoop-2. 7. 4/tmp/dfs /name/current/fsimage.ckpt.0000000000000000000 of size 326 
bytes saved in 0 seconds. 
20/04/25 20:32:21 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txi 

>= 

20/04/25 20:32:21 INFO util.Exitutil: Exiting with status 0 
20/04/25 20:32:21 INFO namenode. NameNode: 


SHUTDOWN_MSG: 
/和 


SHUTDOWN_MSG: Shutting down NameNode at nosq101/192.168.121.134 
WERARRRERRREA TERREA AREERERRRTARRREARRESEERESARRRERARER ERRARE 


[user .mongoénosql01 hadoop]$ M 
Ready ssh2: AES-256-CTR. 


<m 


29, 30 29 Rows, 92 Cols VT100 


图 10-12 格式 化 文件 系统 


动 Hadoop 集群 中 所 有 Yarn 服务 进程 ,最 终 完整 启动 Hadoop 集群 。 

当 关 闭 Hadoop 集群 时 ,可 使 用 脚本 一 键 关闭 的 方式 ,首先 关闭 Hadoop 集群 中 所 有 
Yarn 服务 进程 ,即使 用 命令 stop-yarn.sh, 然 后 关闭 Hadoop 集群 中 所 有 HDFS 服务 进程 ， 
即使 用 命令 stop-dfs.sh, 最 终 完整 关闭 Hadoop 集群 。 

Hadoop 集群 启动 完成 后 ,可 以 在 每 台 服务 器 上 通过 jps 命令 查看 服务 进程 启动 情况 ， 
分 别 如 图 10-13 一 图 10-15 所 示 。 

从 图 10-13 一 图 10-15 中 可 以 看 出 ,服务 器 nosql01 上 启动 了 NameNode, DataNode, 
ResourceManager 和 NodeManager 四 个 Hadoop 服务 进程 ;服务 器 nosql02 上 启动 了 
DataNode、NodeManager 和 SecondaryNameNode 三 个 Hadoop 服务 进程 ;服务 器 nosql03 
上 启动 了 DataNode 和 NodeManager 两 个 Hadoop 服务 进程 ,说 明 Hadoop 集群 启动 
正常 。 


192.168.121.134 - SecureCRT 一 口 X 


下 和 全 证 The Goipt Tool Widow Ha 


af]. Enter host <Alt+R> 


多 192.168.121.134 x | $? 192.168.121.135 | *£192.168.121.136 4 >» 


user. mongoénosql01 shardcluster 
16304 NodeManager 
15890 DataNode 
16724 Jps 

16188 ResourceManager 

15790 NameNode 

[user mongoénosql01 shardcluster]$ M 


ET 


M 


Ready ssh2: AES-256-CTR 7, 36 8 Rows,51Cols VT . 


图 10-13 服务 器 nosql01 
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B) 192.168.121.135 - SecureCRT = o x 
go u t Geco tio eo e a 
z £3 3X]. Enter host <Alt+R> | 


192.168.121.134 | 192.168.121.135 x | 4? 192.168.121.136 4 > 


9533 SecondaryNameNod 
[user_mongoenosq102 Shardcluster]$ 


Ready ssh2: AES-256-CTR. 6, 36 8Rows, 51 Cols VT a 


10-14 服务 器 nosql02 


3j 192.168.121.136 - SecureCRT 一 口 X 
PS Sep eos Mee Vp 


ps 
8061 NodeManager 
[user_mongo@nosq103 shardcluster]$ 


ssh2: AES-256-CTR 5, 36 8 Rows, 51 Cols 


图 10-15 服务 器 nosql03 


4. Spark 集群 搭建 


COD 下 载 Spark 安装 包 。 

Spark 是 Apache 基金 会 面向 全 球 开源 的 产品 之 一 ,用 户 都 可 以 从 Apache Spark 官网 
https://archive.apache.org/dist/spark/spark-2.3.2/ 下 载 使 用 。 本 节 将 以 Spark2.3.2 版 本 
为 例 介绍 Spark 的 安装 。Spark 安装 包 下 载 页 面 如 图 10-16 所 示 。 

在 图 10-16 所 示 界 面 中 , 单 击 Spark 安装 包 spark-2.3.2-bin-hadoop2.7.tgz 即 可 下 载 , 安 
装 包 名 称 中 的 hadoop2.7 表示 当前 Spark 版 本 对 应 的 Hadoop 版 本 。 

注意 : 本 书 会 提供 和 使 用 spark-2.3.2-bin-hadoop2.7.tgz 安装 包 。 

(2) 安装 Spark。 

使 用 SecureC RT 远程 工具 连接 服务 器 nosql01 ,将 下 载 的 spark-2.3.2-bin-hadoop2.7. 
tgz 安装 包 通 过 sudo rz 命令 上 传 到 的 /opt/software/ 目 录 下 ,上 传 完成 后 将 安装 包 通 过 


令 


sudo chown user mongo: user mongo /opt/software/spark-2.3.2-bin-hadoop2.7.tgz fi 
将 Spark 安装 包 修 改 为 user_mongo 用 户 权限 ,具体 效果 如 图 10-17 所 示 。 

从 图 10-17 中 可 以 看 出 ,在 目录 /opt/software/ 下 存在 Spark 安装 包 , 并 且 用 户 权 限 为 
用 户 user_mongo, 说 明成 功 上 传 Spark 安装 包 并 修改 用 户 权限 。 

通过 解压 Spark 安装 包 的 方式 安装 Spark ,将 Spark 安装 包 解 压 到 目录 /opt/servers/ 
mongodb demo/shardcluster F .具体 命令 如 下 : 
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Index of /dist/spark/spark-2.3.2 


Name Last modified Size Description 


9 Parent Directory x: 


E SparkR 2.3.2. tar. gz 2018-09-16 13:30 304K 
B] SparkR 2.3. 2. tar. ez. asc 2018-09-16 13:30 801 
E] sparkk 2.3. 2. tar. ez. sha512 2018-09-16 13:30 207 

pyspark-2. 3. 2. tar. gz 2018-09-16 13:30 202M 
B] yspark 2, 3. 2. tar. ez. asc 2018-09-16 13:30 801 
È] pyspark-2. 3. 2. tar. ez. sha512 2018-09-16 13:30 210 

spark bin-hadoop2. 6. tez 2018-09-16 13:30 213M 
目 spazk-2. 3. 2-bin-hadoop2, ê. tgz. asc 2018-09-16 13:30 801 


spark-2. 3. 2-bin-hadoop2. 6. tez. sha5l2 2018-09-16 13:30 268 
2018-09-16 13:30 215M 

sn doop2.T tez. asc 2018-09-16 13:30 801 
图 spark-2. 3. 2-binhadoon2, T.tez.sha5i2 2018-09-16 13:30 268 

spark-2. 3. 2-bin-without-hadoop.tgz 2018-09-16 13:30 148M 
Œ] :nark-2.3.2-bin-without-hadoop.tgz.asc 。 2018-09-16 13:30 801 
6j spark-2. 3. 2-bin-without-hadoop. tgz. sha512 2018-09-16 13:30 288 


spark-2. 3.2. tgz 2018-09-16 13:30 15M 
B spark-2. 3.2. tgz. asc 2018-09-16 13:30 801 
日 spark-2. 3. 2. tgz. sha512 2018-09-16 13:30 195 
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E 192.168.121.134 - SecureCRT = dB X 
Fle Edit View Options Transfer Script Tools Window Help 


$ Enter host <Alt+R> Ez 


mO; 
total 779 80 


1 user.mongo user mongo 266688029 Apr 14 2018 hadoop-2-7-4. tar.gz 
o 189756259 Apr 14 2018 jdk-Bul6l-linux tar.gz 


1 fuser -mong user -mongo 223875602 Apr 7 15: 32 spar! 2- 3. 2-4 "bin-hadoop2. 7. tgz 
[user mongo& orq 


ssh2: AES-256-CTR 7, 32 8 Rows, 96 Cols — VT100 


A 10-17 上 传 Spark 安装 包 


Star -zxvf /opt/software/spark-2.3.2-bin-hadoop2.7.tgz -C /opt/servers/mongodb demo 
/shardcluster/ 


(3) Spark 集群 配置 。 
进入 spark 安装 目录 下 的 conf 目录 ,修改 Spark 的 配置 文件 spark-env. sh ,修改 前 需要 
先 将 配置 模板 文件 spark-env.sh.template 复制 一 份 并 命名 为 spark-env.sh, 有 具体 命令 如 下 : 


$cp spark-env.sh.template spark-env.sh 


文件 spark-env.sh 用 于 配置 启动 Spark 的 相关 内 容 , 通 过 vi 命令 编辑 该 配置 文件 ,在 


案例 二 手 房 交 易 数据 分 析 系 统 


38 
S 
k 
at 
ka 


文件 spark-env.sh 末尾 追加 下 面 内容 : 


HADOOP CONF DIR-/opt/servers/mongodb demo/shardcluster/hadoop-2.7.4/etc/hadoop/ 
export JAVA HOME- /opt/servers/mongodb demo/shardcluster/jdk1.8.0 161/ 
export SPARK MASTER HOST-nosq101 


上 述 添加 的 配置 参数 主要 包括 JDK 环境 变量 、Master 结 点 的 主机 名 以 及 Hadoop 配置 
文件 目录 (获取 Hadoop 相关 配置 信息 ) 。 
复制 slaves.template 文件 ,并 重 命名 为 slaves, 具 体 命令 如 下 : 


$cp slaves.template slaves 


通过 vi slaves 命令 编辑 slaves 配置 文件 ,主要 是 指定 Spark 集群 中 的 从 结 点 (删除 默认 
的 localhost) ,添加 内 容 如 下 : 


nosq102 
nosq103 


上 述 添加 的 内 容 代表 Spark 集群 中 的 从 结 点 为 服务 器 nosql02 和 服务 器 nosql03。 

(4) 分 发 文件 。 

完成 服务 器 nosqlol 上 Spark 的 安装 配置 后 ,还 需要 将 服务 器 nosql01 上 的 Spark 安装 
目录 分 发 到 集群 中 服务 器 nosql02 和 nosql03 上 ,对 这 两 台 服 务 器 进行 Spark 安装 和 配置 ， 
在 服务 器 nosql01 上 执行 如 下 命令 : 


$scp -r /opt/servers/mongodb demo/shardcluster/spark-2.3.2-bin- hadoop2.7/user mongo@ 
nosq102: 
/opt/servers/mongodb demo/shardcluster/ 
$scp -r /opt/servers/mongodb demo/shardcluster/spark-2.3.2- bin- hadoop2.7/user mongo@ 
nosq103: 
/opt/servers/mongodb demo/shardcluster/ 


至 此 ,完成 Spark 集群 安装 配置 内 容 。 
(5) 启动 Spark 集群 。 
进入 Spark 安装 目录 的 sbin 目录 下 ,执行 如 下 命令 : 


$./start-all.sh 


在 整个 Spark 集群 服务 启动 完成 后 ,可 以 在 三 台 服 务 器 上 通过 jps 命令 查看 服务 进程 
启动 情况 ,分 别 如 图 10-18 一 图 10-20 所 示 。 

从 图 10-18 一 图 10-20 中 可 以 看 出 ,服务 器 nosql01 上 启动 Spark 集群 的 Master 服务 进 
程 ,服务 器 nosql02 上 启动 Spark 集群 的 Worker 服务 进程 .服务 器 nosql03 上 启动 Spark 集 
群 的 Worker 服务 进程 ,说 明 Spark 集群 启动 正常 。 

(6) 验证 Spark on Yarn。 

Spark 集群 已 经 部 署 完毕 , 接 下 来 我 们 使 用 Spark 官方 示例 SparkPi, 验 证 Spark 集群 
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mong q 
16304 NodeManager 
15890 DataNode 


eManager 
15790 NameNode 
[user mongoenosqlO1 sbin]$ B 


Ready ssh2: AES-256-CTR. 8, 28 10 Rows, 52Cols VTI . 


图 10-18 服务 器 nosql01 


图 192.168.121.135 - SecureCRT 一 口 x 
Eo ONCE Rei quan 


user. ER 
9648 pes 


10205 Jps 
[user mongoénosq102 sbin]$ il 
v 


ssh2: AES-256-CTR. 7, 28 10 Rows, 52 Cols VTI .. 


图 10-19 服务 器 nosql02 


192.168.121.136 - SecureCRT = a x 
Be Edt Vew Opiom Tanter Sui nh Window Hep 


[user mongo@nosqlo3 sbin]s M i 
" 


Ready ssh2: AES-256-CTR 6, 28 10 Rows, 52 Cols VTI . 


El 10-20 服务 器 nosql03 


的 任务 是 否 提 交 到 Yarn 上 。 这 里 以 服务 器 nosql01 为 例 ,进入 Spark 目录 下 的 bin 目录, 执 
行 Spark 提交 任务 的 命令 ,具体 内 容 如 下 : 


-/spark-submit V 
--master yarn V 
--deploy-mode client V 
--driver-memory 1G V 


第 10 章 ”综合 案例 一 一 二 手 房 交易 数据 分 析 系 统 


--executor-memory 1G V 


—-class org.apache.spark.examples.SparkPi V 
--executor-cores 1 V 


-./examples/jars/spark-examples 2.11-2.3.2.jar V 
10 


上 述 命令 参数 表示 含义 如 下 : 

。 --masteryarn : 将 Spark 任务 提交 到 yarn 中 。 

* —executor-memory 1GB: 指定 每 个 executor 的 可 用 内 存 为 1GB。 

。 --executor-memory 1GB: 指定 每 个 driver 的 可 用 内 存 为 1GB。 

* —total-executor-cores 1: 指定 每 个 executor 使 用 的 CPU 核心 数 为 1 个 。 

。 --deploy-mode: 指定 Spark on Yarn 支持 两 种 运行 模式 ,分 别 为 cluster 和 client。 


cluster 适用 于 生产 环境 ;而 client 适用 于 交互 和 调试 ,因为 能 在 客户 端 终端 看 到 程 
序 输出 。 


。 —class; 调用 jar 包 中 指定 类 。 


按 回 车 键 提 交 Spark 作业 ,观察 Yarn 管理 界面 (在 浏览 器 中 输入 http://192.168.121. 
134: 8088) ,如 图 10-21 所 示 。 


Bes e t 


+- ox 
C | OFER WLYATI MIO Ast meros 
ametis eis 加 
All Applications 
[ Cluster Metrics 
About | Appt Apps Apps | Apps EAMA E RD RAE DE A 
Submited | Pending Running Completed Running Uued Total | Reseved Used © Total Reseved Nodes Nodes Nodes | Nodes Nodes 
”| Ü o 1 o 3 568 MG 08 3 M o à 9 a ri ri 
[7] Scheduler Metrics. 
Macao | secertye - s Resource Type 0000 Minumum Anocovon — i= Maximum Allocation. 
ACCEPTED [Capacity Scheduler. IMEMORY) emermory 1024, vCores:1> <memerys192 Cores» 
Bini. 一 一 : 
E] | w oo ue oi Name Applcaton yps Queuec stanfmes FinahTime® Sate ?  Fmalstalus © Progress © Tracking Ul 5 Packed Nodes 
d ansikaion L587824430805.00D1 wee mongo Spe SPARK wenn Saar2s NA [ wwe Dermo d plicationMasta 0 
Tons. j E E 


图 10-21 查看 Yarn 中 执行 的 Spark 任务 


在 图 10-21 中 ,State 状态 为 Running 表示 当前 Yarn 中 Spark 任务 正在 计算 的 作业 , 执 
行 几 秒 后 ,刷新 界面 ,如 图 10-22 所 示 。 


nehme x [E 


<> Cmi QueR 102168121114908Ncucer 


KENJO] All Applications d 


图 10-22 查看 Yarn 中 执行 完成 的 Spark f£ 
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从 图 10-22 中 可 以 看 出 , State 状态 为 FINISHED 表示 当前 Spark 任务 执行 完毕 ， 
FinalStatus 最 终 状态 为 SUCCEEDED 表示 当前 Spark 任务 执行 成 功 ,返回 控制 台 查 看 输 
出 信息 ,如 图 10-23 所 示 。 


E 192.168.121.134 - SecureCRT - O X 
Fle Edit View Options Transfer Script Tools Window Help 


TasksetManager:54 - Finished task 8.0 in stage 0.0 (TID 8) in 48 ms on nos 4 

TasksetManager:54 - Finished task 9.0 in stage 0.0 (TID 9) in 44 ms on nos 

Yarnscheduler:54 - Removed Taskset 0.0, whose tasks have all completed, fr 
2029-04-25 22:24:35 INFO DaGscheduler:54 - Resultstage 0 (reduce at sparkPi.scala:38) finished in 1 
2020-04-25 22:2 DAGScheduler:54 - Job 0 finished: reduce at sparkpi.scala:38, took 2.29964 


Connector :318 - stopped sparké3cSbddSb(HTTP/1.1, [http/1.1]) (0.0.0. 


Sparkupis4 - stopped spark web ur at httpi//nosql01:4040 
YarnclientschedulerBackend:54 - Interrupting monitor thread 
YarnclientschedulerBackend:54 - shutting down all executors 

2020-04-25 22 YarnschedulerBackend$varnbriverEndpoint:54 - Asking each executor to shut 

own 

2020-04-25 22:2 SchedulerExtensionservices:54 - stopping schedulertxtensionservices 

(serviceoption-None , 

services-ListO, 
started-false) 

2020-04-25 22:24: YarnclientschedulerBackend:54 - stopped 

2020-04-25 MapoutputTrackerMasterEndpoint:54 - MapoutputTrackerMasterEndpoint stopped 

D 


MemoryStore:54 - MemoryStore cleared 

BlockManager:54 - BlockManager stopped 

BlockManagerMaster:54 - BlockManagerMaster stopped 
Outputcommitcoordinator$OutputcommitcoordinatorEndpoint:54 - outputcommitc 


Sparkcontext:54 - successfully stopped sparkcontext 
Shu foo 


tdownHookManager :54 - shutdown hook called 
ShutdownHookManager :54 - Deleting directory /tmp/spark-e37fd293-4e08-4fac- 


22:24:35 INFO ShutdownHookManager:54 - Deleting directory /tmp/spark-dec00056-e9f9-40d6- |i 
87c6-aa236653c5f 2 
[user mongoénosqlO1 bin]$ M 


ssh2: AES-256-CTR —— 37, 27 37 Rows, 100 Cols VT100 


图 10-23 Spark 任务 执行 结果 


从 图 10-23 中 可 以 看 出 ,Pi 值 已 经 被 计算 完毕 , 即 Pi is roughly 3.1405431405431403 
(此 值 为 非 固定 值 ) 。 

6 BITE: 解决 Spark 提交 任务 时 的 Yarn 异常 问题 

在 部 署 Spark on Yarn 集群 时 ,可 以 在 Hadoop 配置 文件 yarn-site. xml 中 添加 如 下 内 
容 , 以 防止 在 提交 Spark 任务 的 时 候 ,Yarn 可 能 将 Spark 任务 Kill 4t. 3- & "Failed to send 
RPC xxxxxx” 异 常 。 


«property» 
«name» yarn.nodemanager.pmem- check- enabled« /name> 
«value» false«/value» 

</property> 

<property> 
<name> yarn.nodemanager.vmem- check- enabled« /name> 
«value» false«/value» 


</property> 
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10.3 ”模块 开发 一 一 构建 项 目 结构 


二 手 房 交 易 数 据 分 析 系 统 的 开发 是 通过 IDEA 工具 实现 的 。 因 此 ,本 节 将 详细 讲解 如 
何在 IDEA 工具 中 构建 项 目 结构 。 


1. 创建 工程 


打开 IDEA 开发 工具 ,使 用 Maven 创建 Java Web 项 目 , 单 击 选择 模板 org. apache. 
maven.archetypes: maven-archetype-webapp, 单 击 Next 按钮 ,具体 如 图 10-24 所 示 。 


Bl New Project x 
s preja sD s 
E Clouds EZ Create from archetype Add Archetype... 
e Spring —— n —MQ 
dite > orgapache.maven.archetypescmaven-archetype-marmalade-mojo 

> org.apache.maven.archetypes:maven-archetype-mojo 
Wk Android > org.apache.maven.archetypes:maven-archetype-portlet 
全 IntelliJ Platform Plugin | | |> org.apachemaven.archetypes:maven-archetype-profiles 
5 RATS > org.apache.maven.archetypes:maven-archetype-quickstart. 
«ó Spring Initializr > orgapache.maven.archetypescmaven-archetype-site 
Maven > org.apache.maven.archetypes:maven-archetype-site-simple 
è Gradle c ebapp 
> 
@ Groowy > org.apache.maven.archetypes:softeu-archetype-seam 
© Grails > org.apache.maven.archetypes:softeu-archetype-seam-simple 
© Application Forge > org.apache.myfaces.buildtools:myfaces-archetype-helloworld 
> org.apache.myfaces.buildtools:myfaces-archetype-helloworld-facelets 
三 scala 》 org.apache.myfaces.buildtools:myfaces-archetype-jsfcomponents 
K Kotin 》 org.apache.myfaces.buildtools:myfaces-archetype-trinidad 
> 


org.apache.struts:struts2-archetype-starter 


© Static Web 
je A simple Java web application 


Cancel Help 
图 10-24 选择 Maven 模板 


在 图 10-24 中 ,创建 Maven 项 目 时 需 设置 JDK .本 案例 所 使 用 的 JOK 的 版 本 为 1.8, 有 
X Windows 下 JDK 的 安装 与 配置 这 里 不 作 闭 述 . 读 者 可 自行 查阅 相关 资料 。 这 里 建议 使 
用 本 地 配置 的 JDK, 如 初次 使 用 IDEA 工具 则 可 以 通过 单 击 New 按钮 添加 JDK。 单 击 
Next 按钮 ,进入 Maven 项 目的 配置 界面 ,配置 项 目的 组 织 名 (GroupId) 和 项 目 工程 名 
(ArtifactId/Name) 以 及 项 目 存放 的 本 地 目录 (Location) ,具体 如 图 10-25 所 示 。 

Maven 工程 配置 完成 后 . 单 击 图 10-25 中 的 Next 按钮 .配置 项 目 使 用 的 Maven., 本 案例 
所 使 用 的 Maven 的 版 本 为 3.6.3, 有 关 Windows F Maven 的 安装 与 配置 这 里 不 作 袭 述 , 读 
者 可 自行 查阅 相关 资料 。 

这 里 建议 使 用 本 地 配置 的 Maven, 在 Maven home directory 栏 中 选择 本 地 安装 的 
Maven, 如 初次 使 用 可 通过 单 击 … 按 钮 添加 本 地 Maven 安装 路 径 。 勾 选 “User settings 
files” 栏 中 的 Override 复 选 项 ,选择 本 地 安装 Maven 中 的 配置 文件 ,如 配置 文件 中 设置 了 依 
赖 包 本 地 存放 目录 , 则 Local repository 栏 中 会 自动 变 为 配置 文件 中 设置 的 日 录 , 具 体 如 
图 10-26 所 示 。 
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NoSQL 数据 库 技 术 与 应 用 
Bl New Project x 
Name: MongoProject 
Location: DAWork\ldeaProjects\MongoProject z| 


v Artifact Coordinates — 


Groupld: | cnitcast 


The name of the artifact group, usually a company domain 


Artifactld: | MongoProject 


The name of the artifact within the group, usually a project name 


Version: | 1.0-SNAPSHOT 


10225 设置 组 织 名称 .工程 名 称 和 本 地 存放 目录 


Bl New Projet 


rn MN 


(Version: 3.6.3) 
User settings file: || DASoftimaven-3.6.3Vconfsettings.xml 


Local repository: DASoftymaven jar 
Properties 


groupld cn.itcast 


artifactid MongoProject 


version 1.0-SNAPSHOT 
archetypeGroupld org.apache.maven.archetypes 
archetypeArtifactid maven-archetype-webapp. 
archetypeVersion RELEASE 


A 10-26 设置 本 地 Maven 


本 地 Maven 配置 完成 后 , 单 击 图 10-26 中 的 Finish 按钮 ,Maven 会 根据 刚才 的 配置 创 
建 一 个 基于 Maven 的 Web App 项 目 , 等 待 一 段 时 间 创 建 结束 后 ,该 项 目 初 始 结构 如 图 10-27 
所 示 。 

在 图 10-27 中 的 Web App 项 目 MongoProject 下 新 建 一 个 简单 Maven 项 目 , 命 名 为 
SparkDemo, 便 于 后 续 将 单独 的 Spark 程序 封装 成 Jar 包 上 传 到 集群 中 运行 , 右 击 
MongoProject Jii H ,然后 依次 选择 New Module. Hf nd 10-28 所 示 。 

在 图 10-28 中 选择 本 地 安装 的 JDK 后 , 单 击 Next 按钮 ,配置 Maven 项 目的 组 织 名 
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局 MongoProject 
fS Project ~ O Flg - 
~ B MongoProject 0 
> Bidea 
v Msrc 
v Mmain 
v Ba webapp 
v MWEB-INF 
web.xml 
iiy indexjsp 
M pom.xml 
> lll External Libraries 
Tig Scratches and Consoles 
10-27 MongoProject 项 目 初 始 结构 
Bl New Module 3n 
grava 
| Ti Java Enterprise e] ENS 
| £ JBoss Add Ardet 
| ™ Clouds | [> comatlassian.maven-archetypes:bamboo-plugin-archetype 
| «$ spring | |> comatlassian.maven.archetypes:confluence-plugin-archetype 
| VÀ Android |? comatlassian.maven.archetypessjira-plugin-archetype 


pi | |> com.rfcmaven.archetypesjpa-maven-archetype 
| € Intelli Platform Plugin [| |> deakquinetjbossccjbosscc-seam-archetype 
|> netdatabinderdata-app 

|> netliftwebilift-archetype-basic 

| 》 netliftweb:lift-archetype-blank 


| ó Spring Initial 


t onde | |> nets maven-harzmaven-archetype-har 

|& 6r | | 》 netsfmaven-sarmaven-archetype-sar 

© ci |? org.apache.camel.archetypes:camel-archetype-activemq 
| «9 Grails 


|? org.apache.camel.archetypes:camel-archetype-component 
| © Application Forge | 》 org.spache.camel.archetypes:camel-archetype-java 
| |? org.apache.camel.archetypes:camel-archetype-scala 


| 三 Scala 
| | |> orgapache.camelarchetypes:camel-erchetype-spring 
| K. kotiin | p org.apache.cameLarchetypesicamel-archetype-war 
| | 
> org.apache.cocoon:cocoon-22-archetype-block 
| © Static Web eiie 
| ， | |> orgapachecocoonxcocoon-22- 
| 9 Nodejs and NPM |> org.apache.cocoon:cocoon- 
| BẸ Flash | |> _org.apache.maven-archetypes:maven-archetype-j2ee-simple 
| " |? org.apache.maven.archetypes:maven-archetype-marmalade-mojo 


z e os 


图 10-28 新建 简单 Maven MA 


(GroupId) 和 项 目 工程 名 (ArtifactId/Name) 以 及 项 目 存放 的 本 地 目录 (Location) ,注意 需 
将 路 径 修改 到 默认 MongoProject 路 径 以 外 ,否则 将 无 法 加 载 该 项 目 中 的 pom.xml 文件 ,有 具 
体 如 图 10-29 所 示 。 

在 图 10-29 中 单 击 Finish 按钮 ,Maven 会 根据 配置 内 容 创 建 一 个 简单 Maven 项 目 , 此 
时 二 手 房 交 易 数 据 分 析 系 统 的 整体 项 目 结构 如 图 10-30 所 示 。 

从 图 10-30 中 可 以 看 出 ,在 WebAPP 项 目 MongoProject 下 生成 了 新 的 简单 Maven 项 
目 SparkDemo。 


2. 构建 项 目 架构 


CD 选中 项 目 MongoProject 下 的 main 目录 ,然后 右键 选择 New> Directory 创建 java 
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El New Module x 
Parent: «None» ~ 
Name: | SparkDemo 

Location: = 


* Artifact Coordinates 


Groupld: | cn.itcasi 


The name of the artifact group, usually a company domain 


Artifactid: | SparkDemo 


The name of the artifact within the group, usually a module name 


Version: | 1.0-SNAPSHOT 


meis | E ]| Caneel || e 
图 10-29 配置 简单 Maven MA 


E Project ~ $% 一 
Y WMongoProject D:\Work\ldeaProjects\MongoPr| 
> Bidea 
v Msrc 
v Mmain 
v Ba webapp 
v BS WEB-INF 
il, web.xml 


i. indexjsp 
M pom.xml 
v iaSparkDemo D;\Work\ldeaProjects\SparkDemo 
v Msrc 
v Ba main 


We resources 
> test 
M pomxml 
illi External Libraries 
Ti Scratches and Consoles 


图 10-30 ”整体 项 目 结构 


目录 ,创建 完成 后 在 java 目录 右键 选择 Mark Directory as— Source Root ,指定 该 文件 夹 及 
其 子 文件 夹 中 包含 的 源 代码 , 即 java 文件 。 在 该 目录 下 创建 相关 包 , 具 体 如 下 。 

* cn.itcast.controller; 用 于 存放 控制 业务 流程 ,与 Jsp 页 面 交 互 的 类 。 

* cn.itcast.crawer: 用 于 存放 数据 采集 程序 。 

* cn.itcast.dao: 负责 与 数据 库 进行 联络 的 一 些 类 。 

。 cn.itcast.domain: 用 于 存放 与 数据 库 表 对 应 的 实体 类 。 

。 cn.itcast.utils: 用 于 存放 项 目 中 一 些 工 具 类 

(2) 在 项 目 MongoProject 的 main 目录 右键 选择 New 一 Directory 创建 resources H 
录 ,创建 完成 后 在 resources 目录 上 右 击 , 然 后 选择 Mark Directory as 一 Resource Root , 指 
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定 用 于 应 用 程序 中 的 资源 文件 (各 种 配置 XML 和 属性 文件 等 ) 。 
(3) 在 项 目 MongoProject 的 webapp 目录 上 和 右键 选择 New Directory 创建 js 目录 ,用 
于 存放 项 目 所 有 js 文件 ,其 中 包括 jquery 和 echarts 文件 。 
构建 后 的 整体 项 目 结构 ,具体 如 图 10-31 所 示 。 
E Project ~ oz|9-— 
v WaMongoProject DAWork|deaProjects:MongoPr| 
> Ba idea 


v src 
v Bü main 


v Mjava 
v Dacnitcast 
Pa controller 
Da crawer 
Ea dao 
Pi domain 
Ba utils 
Rt resources 
v Bawebapp 
v ijs 
is. echarts.js 
&. jquery-34.1js 
v MWEB-INF 
i, web.xml 
di indexjsp 
M pom.xml 
v WeSparkDemo D:\Work\ideaProjects\SparkDemo 
v Msrc 
v Mmain 


v Bujava 


We resources 
> Mtest 
M pom.xml 


> iili External Libraries 
BO Scratches and Consoles 


10-31 构建 后 的 整体 项 目 结构 


3. 添加 项 目 依赖 


在 项 目 MongoProject 中 配置 文件 pom.xml, 也 就 是 引入 数据 展示 模块 和 采集 数据 模块 
所 需要 的 依赖 。pom.xml 文件 添加 的 内 容 , 具 体 如 文件 10-1 所 示 。 
文件 10-1 项 目 MongoProject 的 文件 pom.xml 


<!- -数据 采集 模块 --> 

«!--webnagic E figZe--» 
<dependency> 

10 <groupId>us .codecraft</groupId> 


1 «properties» 

D «project.build.sourceEncoding»UTF-8« /project.build.sourceEncoding» 
3 «maven.compiler.source»1.8« /maven.compiler.source> 

4 «maven.compiler.target»1.8« /maven.compiler.target» 

5  «/properties» 

6 «dependencies» 

qi 

8 

9 
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上 述 文件 中 ,第 7 一 24 行 代码 引入 了 webmagic 依赖 和 html 解析 器 依赖 ,用 


<artifactId>webmagic-core</artifactId> 
<version>0.7.3</version> 
<exclusions> 
<exclusion> 
<groupId>org.slf4j</groupId> 
<artifactId>slf4j-l0og4j12</artifactId> 
</exclusion> 

</exclusions> 

</dependency> 

<dependency> 
<groupId>us.codecraft</groupId> 
<artifactId>webmagic-extension</artifactId> 
<version>0.7.3</version> 

</dependency> 

<!--html 解析 器 --> 

<dependency> 
<groupId>org.jsoup</groupId> 
<artifactId>jsoup</artifactId> 
<version>1.11.3</version> 

</dependency> 

<!-- 数 据 展示 模块 --> 

<!--web 开发 依赖 --> 

<dependency> 
<groupId>javax< /groupId> 
<artifactId>javaee-api</artifactId> 
<version>8.0</version> 
<scope>provided< /scope> 

</dependency> 

«1--servlet 依赖 --> 

<dependency> 
<groupId> javax.servlet</groupId> 
<artifactId>javax.servlet-api</artifactId> 
<version>4.0.0</version> 

</dependency> 

<!--java 操作 mongoDB 的 驱动 依赖 --> 

<dependency> 
<groupId>org.mongodb< /groupId» 
<artifactId>mongo- java-driver</artifactId> 
<version>3.12.1</version> 

</dependency> 

<!-- 通 用 依赖 --> 

<!-- 操 作 json--> 

<dependency> 
<groupId>com.google.code.gson</groupId> 
<artifactId>gson< /artifactId> 
<version>2.8.5</version> 

</dependency> 


</dependencies> 


于 实现 数 
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据 采 集 ; 第 32 一 50 行 代 码 引 入 了 servlet 依赖 、web 开发 依赖 和 MongoDB 驱动 依赖 ,用 于 实 
现 数据 展示 ;第 53 一 57 行 代码 引入 了 gson 依赖 ,用 于 解析 项 目 中 的 json 数据 。 
在 项 目 SparkDemo 中 配置 文件 pom.xml, 即 引入 数据 分 析 模 块 所 需要 的 依赖 。 文 件 
pom.xml 添加 的 内 容 , 具 体 如 文件 10-2 所 示 。 
文件 10-2 项目 SparkDemo 的 文件 pom.xml 
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上 述 文件 中 ,第 137 行 代码 用 于 构建 通过 Maven 工具 封装 jar 包 的 配置 ;第 4044 行 代 
码 引 入 MongoDB 驱动 依赖 ,用 于 Spark 程序 连接 MongoDB; 第 46—55 行 代码 引入 Spark 依 
赖 ,用 于 开发 Spark 数据 分 析 程 序 ; 第 57 一 61 行 代码 引入 了 gson 依赖 ,用 于 解析 项 目 中 的 json 
数据 ;第 63 一 67 行 代码 引入 MongoDB 驱动 依赖 ,用 于 java 程序 连接 MongoDB。 


4. 创建 数据 库 配 置 文件 


在 项 目 MongoProject 的 resources 目录 上 右键 选择 New 一 File, 创 建 数据 库 配置 文件 
mongodb. properties ,该 文件 用 于 存放 MongoDB 连接 的 相关 配置 ,具体 内 容 如 文件 10-3 所 示 。 
文件 10-3  mongodb.properties 
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10.4 模块 开发 一 一 数据 采集 


在 本 项 目 MongoProject 中 ,我 们 利用 Java MERHER WebMagic 编写 疏 虫 程序 ,用 于 采 
集 某 房屋 交易 网 站 中 二 手 房 交 易 数 据 信息 ,并 将 采集 的 数据 存储 到 MongoDB 数据 库 中 。 


10.4.1 WebMagic 简介 


WebMagic 是 一 个 简单 灵活 的 Java MERHER, F WebMagic 用 户 可 以 快速 开发 出 
一 个 高 效 、 易 维护 的 怜 虫 程序 。 

WebMagic 包含 以 下 几 个 特性 : 

。 简单 的 API, 可 快速 上 手 。 

。 模块 化 的 结构 ,可 轻松 扩展 。 

。 提供 多 线程 和 分 布 式 支持 。 

WebMagic 的 设计 参考 了 业界 最 优秀 的 怜 虫 程序 Scrapy, 而 实现 则 应 用 了 HttpClient、 
Jsoup 等 Java 中 最 成 熟 的 工具 。 读 者 可 通过 访问 WebMagic 官网 http://webmagic.io/ 
docs/zh/ ,查看 WebMagic 框架 的 相关 内 容 。 


10.4.2 分 析 网 页 数据 结构 


在 疏 取 网 站 数据 之 前 ,我 们 需要 先 分 析 网 站 的 源码 结构 ,然后 制定 怜 虫 程序 的 编写 方 
式 , 从 而 使 我 们 能 够 获取 到 准确 的 数据 。 

通过 浏览 器 浏览 某 房屋 交易 网 站 中 的 一 条 二 手 房 房 源 信息 ,该 房 源 信 息 是 属于 北京 地 
区 ,具体 内 容 如 图 10-32 Bron 


三 环 边 双 地 铁 贾 家 花园 小 区 满 5 年 1 套 南北 向 首付 98 万 


2925 2s1lF 6l.4+5* Bams 
- 


房屋 信息 


KENE: EUR SRR: 281712 RRHH: 47557 Fum 
KERE: 丰台 区 - NRE- TUE BRER: 61 4 平方 米 Sæt: 87 60F 
mic. 1988 mmis: mt 参考 月 全 :17198 元 
BEXT: mere 
BERR: 无 
meng: SEGUE 


10-32 
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在 图 10-32 中 ,二 手 房 源 信息 包含 了 该 房 源 在 网 站 中 的 标题 .房屋 总 价 以 及 房屋 的 一 些 
详细 介绍 等 数据 内 容 ,这些 数 据 就 是 通过 和 怜 虫 程序 需要 采集 的 内 容 。 此 时 ,我们 看 到 的 这 些 
数据 内 容 只 是 通过 浏览 器 解析 网 页 源 代 码 后 所 展示 出 来 的 ,同样 疏 虫 程序 也 需要 解析 页 面 
源 代 码 从 而 获取 我 们 想 要 的 数据 内 容 。 

接 下 来 ,我 们 通过 浏览 器 进入 开发 者 模式 查看 网 页 源 代 码 ,确认 这 些 数据 在 网 页 中 存放 
在 源 代码 中 的 HTML 标签 内 ,便于 我 们 在 后 续 编 写 怜 虫 程序 时 可 以 准确 获取 这 些 数据 ,如 
图 10-33 所 示 。 


[X 所 | Elements Console Sources Network Performance Memory Applicaton Security Audits 


vediv class-"clearfix title-guarantee" wfd-id- 547-5 
<h3 class-"long-title"» 


三 环 边 SUBASGEILELRE 满 5 年 ] 套 南北 向 首付 38 万。 </h3> 


iiafter 
S/div> 
vediv class="wrapper" wfd-id="81"> 
-页面 左 出 -> 
"div class-"wrapper-1f" wfd-id="184"> 


info-tag" wfd-id- 
《4-- 这 里 视点 定位 的 代码 在 wonthpay2t8 件 里 -- 
class="info-tag no-border tag-cal”wfd-id="543"》-</spany 
fter 
</div> 
P«ul class-"icon-list clearfix" wfd-id="535=>.</u1> 
P «div class-"moreFunc" wfd-id-"534"».c/div» 


krafter 
</div> 
ne ra 


Pdiv class-"switch warpper" wfd-id-"498") «/div» 

«div class-"houseInfoBox" wfd-id-"422"» 
P «hà class-"block-title houseInfo-title" 
«div class-"block-wrap block-nocopy no-i 


ha> 
" wfd-id="423"> 


st clearfix" wfd-id="440"> 
houseInfo-detail-item" wfd-id="493"> 
ouseInfo-label text-overflow" wfd-id="495"> 所 属 小 区 : </div> 
\ouseInfo-content” wfd-id="494"> 
f target="_blank" | soj-"propview' SERETL EI /» 


houseInfo-detail-item" 74877»-«/1i» 
houseInfo-detail-item" 74847».«/1i» 
houseInfo-detail-item" wfd-id-"4817».c/1i» 
7875/11» 

id-"4757).«/14» 

74727» 1i» 

74687».«/1i» 

"46575-«/1i» 

74627»-«/1i» 

745975-c/1i» 

"4567».«/1i» 

7453*»-c/1i» 

"4507»-«/1i» 

744775 c 1i» 

74447» «/1i» 

Pli class-"houseInfo-detail-item" wfd-id-"4417)./1i» 


10-33 ”网 页 源 代码 


在 图 10-33 所 示 的 网 页 源 代码 中 ,class 类 名 为 .long-title 的 h3 标签 中 存放 了 该 房 源 在 
网 站 中 的 标题 数据 ;class 类 名 为 .basic-info 和 .clearfix 的 div 标签 中 包含 类 名 为 .light 和 
.info-tag 的 span 标签 ,在 该 标签 下 的 em 标签 中 存放 了 该 房 源 的 总 价 数 据 ;class 类 名 为 
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.houseInfo-detail-list 和 .clearfix 的 ul 标签 中 存放 了 该 房 源 的 房屋 信息 数据 。 


10.4.3 实现 网 络 数据 采集 


通过 对 网 页 数据 结构 的 分 析 , 了 解 到 数据 存放 于 网 页 源 代码 中 的 位 置 。 接 下 来 ,我 们 将 
分 步骤 讲解 网 络 数据 的 采集 。 


1. 创建 实体 类 


在 项 目 MongoProject 的 cn.itcast.crawer 包 下 创建 实体 类 文件 HouseInfo.java, 用 于 封 


装 采集 数据 ,具体 代码 如 文件 10-4 所 示 。 
文件 10-4 HouseInfo.java 
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上 述 代码 中 ,第 2 一 47 行 代码 定义 需要 采集 数据 的 相关 属性 ;第 50 一 76 行 代 码 重 写 
toString() 方 法 ,将 采集 的 数据 内 容 格式 化 为 Json 格式 ,便于 后 续 将 数据 存 人 MongoDB 数 
据 库 中 。 


2. f ££ E rh 3€ 
在 项 目 MongoProject 的 cn.itcast.crawer &J F 8] £ f& E% 3c fF. MainTask.java . JH T 3: 
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现 数 据 采 集 程 序 ,该 类 继承 接口 类 PageProcessor, 并 实现 接口 类 中 的 process() 和 getSite() 
方法 ,具体 代码 如 文件 10-5 所 示 。 
文件 10-5 MainTask.java 


上 述 代 码 中 ,第 1 一 7 行 代码 引入 类 MainTask 相关 包 ; 第 10 一 11 行 代码 实现 接口 类 
PageProcessor 中 定义 的 process() 方 法 ,用 于 解析 页 面 内 容 ; 第 13 一 15 行 代码 实现 接口 类 
PageProcessor 中 定义 的 getSite() 方 法 ,用 于 提供 HttpClient 请 求 相 关 的 配置 。 

在 类 MainTask 中 ,添加 getNum() 方 法 ,用 于 提取 字符 串 中 的 数字 ,具体 代码 如 下 : 


在 类 MainTask 中 的 process() 方 法 内 ,添加 解析 页 面 内 容 的 代码 ,用 于 获取 需要 采集 
的 数据 ,具体 代码 如 下 : 
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上 述 代码 中 ,第 4 一 23 行 代 码 获取 二 手 房 交易 页 面 内 房 源 信息 列表 ,并 加 载 到 
houseList 对 象 中 ,通过 遍历 对 象 获取 每 一 条 房 源 信息 的 url 地 址 ,将 url 地 址 进行 提交 和 解 
析 , 对 所 有 url 地 址 解析 完毕 后 ,进入 下 一 页 循环 操作 ;第 25 一 108 行 代码 解析 url 地 址 ,从 


而 获取 当前 页 面 中 需要 采集 的 数据 内 容 , 并 封装 在 实体 类 对 象 houseInfo 中 ;第 129 行 代码 
将 采集 的 数据 以 (Key,Value) 形 式 保存 。 
在 类 MainTask 中 的 getSite 方 法 内 配置 怜 虫 程序 ,具体 代码 如 下 : 


上 述 代 码 中 配置 了 疏 虫 程序 编码 格式 .超时 时 间 ` 线 程 休眠 时 间 、 用 户 代理 等 相关 内 容 。 
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ERREF 


3. 运行 
在 项 目 MongoProject 的 cn.itcast.crawer 包 下 创建 运行 疏 虫 程序 的 类 文件 RunTask. 
于 运行 数据 采集 程序 ,并 在 该 类 中 实现 main() 方 法 ,具体 代码 如 文件 10-6 所 示 。 
文件 10-6 RunTask.java 


java, HH 


import us.codecraft.webmagic.Spider; 
public class RunTask { 
public static void main(String[] args) ( 
Spider.create (new MainTask()) 
-addUrl("https://beijing.anjuke.com/sale/") 
.thread(5) 


-run(); 


虽 虽 waonmwuwmnb hm 


) 


上 述 代码 中 ,第 4—7 (HIS HIT 3e (8 d BET fe ET rh di E OR HEROS I url 以 及 线 
程 数 相关 配置 。 

为 了 避免 疏 虫 程序 运行 被 阻止 ,在 运行 疏 虫 程序 前 需要 先 在 浏览 器 中 输入 地 址 
https://beijing.anjuke.com/sale/ 进 行 浏览 并 点 击 其 中 一 个 房 源 进行 查看 ,通常 情况 下 我 们 
需要 先进 行 验证 操作 ,验证 完成 后 便 可 运行 候 虫 程序 。 

右 击 项 目 MongoProject 中 的 文件 RunTask.java, 选 择 Run. RunTask. main O 38 £7 f di 
程序 。 程 序 运行 一 段 时 间 后 ,控制 台 会 输出 采集 数据 的 内 容 , 具 体 如 图 10-34 所 示 。 


wr 
LA 
"4 
nm 
Git 
9* 
ult 
^ 


图 10-34 采集 数据 内 容 


从 图 10-34 中 可 以 看 出 ,控制 台 输出 两 类 内 容 , 分 别 是 page Cfr Pr B vi ri) F item (采集 
的 数据 ) o 


10.4.4 存储 网 络 采集 数 据 


L— B3 (13:98 f fe x FERE ,并 成 功 采集 了 需要 的 数据 内 容 。 不 过 此 时 采集 的 数据 并 
没有 做 持久 化 处 理 , 只 是 在 控制 台 输 出 。 如 要 在 后 续 的 程序 中 使 用 这 些 数据 , 则 必须 存储 这 
些 数据 。 存 储 网 络 采集 数据 的 具体 步骤 如 下 。 


1. 创建 工具 类 


在 项 目 MongoProject 的 cn.itcast.utils 包 下 创建 工具 类 文件 PropertyUtil.java, 用 于 读 
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WER resources 的 配置 文件 ,具体 代码 如 文件 10-7 所 示 。 
文件 10-7 PropertyUtil.java 


上 述 代码 中 ,第 6 行 代 码 定义 Properties 对 象 properties 用 于 存 取 配置 文件 中 key- 
value 结果 ;第 7 一 32 行 代码 定义 方法 loadProperties() 获 取 配 置 文件 内 容 , 该 方法 包含 一 个 
参数 即 配置 文件 名 称 ; 第 33 一 38 行 代码 定义 方法 getProperty() 获 取 配 置 文件 中 指定 key 
的 value 值 (指定 配置 项 的 内 容 ) ,该 方法 包含 两 个 参数 文件 名 称 (用 于 调用 loadProperties() 方 
法 ) 和 key 值 。 

在 项 目 MongoProject 的 cn.itcast. utils 包 下 创建 工具 类 文件 DBUtils.java, 用 于 获取 
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MongoDB 数据 库 连接 对 象 ,具体 代码 如 文件 10-8 所 示 。 
文件 10-8 DBUtils.java 


上 述 代 码 是 用 于 获取 MongoDB 数据 库 连接 对 象 ,在 本 书 第 6 章 的 6.3.2 节 已 经 介绍 ， 
因此 这 里 就 不 再 袭 述 。 


2. 创建 数据 库 操作 类 


在 项 目 MongoProject 的 cn.itcast.dao 包 下 创建 数据 库 操作 类 文件 MongoDao.java, 用 
于 创建 MongoDB 数据 库 连 接 并 实现 数据 库 操作 的 相关 方法 ,具体 代码 如 文件 10-9 所 示 。 
文件 10-9 MongoDao.java 
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上 述 代 码 中 ,第 13 一 23 行 代码 定义 类 的 带 参 构造 方法 MongoDao 获取 MongoDB 配置 
文件 中 相关 配置 信息 ,从 而 创建 MongoDB 连接 对 象 mongoClient, 通 过 连接 对 象 获取 数据 
库 对 象 mongoDatabase 和 集合 对 象 collection; 第 24 一 27 行 代码 创建 insert() 方 法 向 
MongoDB 数据 库 中 的 集合 插入 单条 数据 ;第 28 一 30 行 代 码 创建 close() 方 法 ,用 于 关闭 
MongoDB 数据 库 连 接 。 


3. 实现 存储 采集 数据 


(1) 启动 MongoDB 分 片 集群 (本 案例 使 用 MongoDB 分 片 模式 ,如 读者 使 用 非 分 片 模 
式 , 可 自行 启动 对 应 模式 即 可 ) ,具体 参照 第 5 章 的 内 容 进 行 相关 操作 。 

(2) 通过 MongoDB 分 片 集群 的 路 由 服务 器 操作 MongoDB, 创 建 数 据 库 mongoproject 
和 集合 house, 并 开启 分 片 功能 ,具体 实现 步骤 如 下 : 
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通过 上 述 步 又 操 作 ,我 们 完成 了 MongoDB 分 片 集群 中 数据 库 和 集合 的 创建 ,并 开启 
数据 库 分 片 功能 ,后 续 将 采集 数据 写 人 到 集合 house 后 ,再 进行 开启 集合 分 片 功能 的 
操作 。 

G) 修改 上 一 节 中 疏 虫 类 MainTask 的 process() 方 法 ,在 该 方法 的 第 127 行 和 128 行 
之 间 添 加 数据 存储 的 内 容 , 用 于 将 采集 的 数据 存储 到 MongoDB 分 片 集群 中 ,具体 内 容 
WF: 


(4) Hiz ITE fH.4 3 A MongoProject 的 文件 RunTask. java 选择 Run. 
RunTask.main O32 FE h f£ Fr . fé Fas f£1— Ecl [a] Jer. aal 3 Robo 3T 工具 刷新 数据 库 
mongoproject 下 的 集合 house, 查 看 数据 是 否 成 功 插 入 ,具体 效果 如 图 10-35 所 示 。( 注 意 : 
运行 程序 前 需 在 浏览 器 进行 验证 操作 ) 。 

从 图 10-35 中 可 以 看 出 ,我 们 成 功 将 采集 的 数据 插入 到 MongoDB 数据 库 中 ,因为 息 忠 
程序 运行 的 时 间 越 长 ,解析 的 房 源 页 面 也 就 越 多 ,因此 采集 的 数据 量 也 会 随 之 增长 。 

(5) 通过 MongoDB 分 片 集群 的 路 由 服务 器 操作 MongoDB,. 开 启 数据 库 mongoproject 
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A Robe3T-13 


diu 


[v [B New Connection I 


(1) Objectid( 5e95c97 db 36ES1034644ddcb.. 
E (2 Objectid SeS5cS7 db3665103464dd 
E (3) Objectid( SeD5c0745368510246444. 
(£2. (6) gbjeaidfrge95cg7db3685103494ddd 
E (5) Objectid( SeD5c97 5368510346444. 
E (6) objeid 3e95c991b3685103494ddcbe) (24 fields } 
E 四 Objectid("5e95c991b3685103404ddche") (24 fies } 
> €» 加 objeidfsc95c991b3685103494ddcc0) (24 fields) 
> E (9) Objectid( Se25cO91b36851054944dccZ^) (24 fields ) 
a 
a 


(10) Objectidr"5e95c991b3695103494ddec.. (24 fields } 
{24 fields } 
~ (24 folds) 
~ (24 fields } 


(24 fielde } i 
-~ (24 fields) b " 


leer 


图 10-35 ”验证 数据 是 否 成 功 插入 数据 库 
中 集合 house 的 分 片 功能 ,具体 步骤 如 下 : 


# 登 录 MongoDB 分 片 集群 路 由 服务 器 

Smongo --host 192.168.121.134 --port 27021 

# 切 换 到 拥有 root 权限 的 用 户 

mongos»use admin 

switched to db admin 

mongos» db.auth("admin", "123456") 

1 

# 切换 数据 库 

mongos>use mongoproject 

switched to db mongoproject 

# 切 换 到 数据 库 gateway 

mongos>use gateway 

Switched to db gateway 

HA" id" 集合 默认 索引 作为 分 片 键 对 集合 house 进行 分 片 
mongos» Sh. shardCollection("mongoproject.house",(" id":1)) 
t 


"collectionsharded" : "mongoproject.house", 
"collectionUUID" : UUID("16a76569- 0db2- 4a8b- 8ee5- cd11a8381208"), 
"ok" eis 
"operationTime" : Timestamp(1586950073, 8), 
"$clusterTime" : { 
"clusterTime" : Timestamp(1586950073, 8), 
"signature" : { 
"hash" : BinData(0, "snH/gmGyy2/LRxPAeO5RF- SPiRQ-"), 
"keyId" : NumberLong ("6814242026314268702") 
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小 提示 : 程序 运行 时 , 当 控 制 台 输出 类 似 于 https://beijing. anjuke. com/sale/p4 / € 
filtersort 这 样 的 内 容 ,并 且 程序 停止 运行 ,这 表明 疏 虫 程序 被 网 站 发 现 频繁 操作 ,需要 人 为 
操作 认证 。 可 在 浏览 器 中 输入 该 网 址 ,进行 手工 验证 ,验证 完成 后 ,在 怜 虫 程序 的 RunTask 
类 中 将 程序 中 默认 的 https: //beijing.anjuke.com/sale/f£ i JJ https: / / beijing.anjuke.com/ 


sale/p4/ 即 可 继续 采集 ,具体 内 容 如 下 : 


public class RunTask { 
public static void main(String[] args) ( 


Spider.create (new MainTask()) 


.thread(5) 


-run(); 


oO - o 0 &Utu- 


) 


-addUrl("https://beijing.anjuke.com/sale/p4/") 


如 运行 程序 时 出 现 java compiler 相关 的 错误 信息 ,在 IDEA. 中 选择 File settings 打开 
settings 页 面 ,在 该 页 面 的 搜索 栏 中 数据 java compiler 找到 Java Compiler 选项 , 单 击 该 选 
项 将 Target bytecode version 修改 为 项 目的 jdk 版 本 8 或 1.8 即 可 ,修改 完成 后 单 击 Apply 


按钮 应 用 设置 ,如 图 10-36 BEAR 。 


Annotation Processors 当 。 Javac Options 
Y Scala Compiler EZ Use compiler from module target JDK when possible 
Scala Compile Server. 回 Generate debugging info 
V Debugger. [Zi Report use of deprecated features 
HotSwap C Generate no warnings 
Languages & Frameworks Additional command line parameters: (/ recommended in 
Scala 


Override compiler parameters per-module: 
Module 


Bl Settings 
Gigs compiler ] Build, Execution, Deployment > Compiler > Java Compiler 
Appearance & Behavior Use compiler: [Javac > 
DET E Use '—release' option for cross-compilation (Java 9 and later) 
Keymap 
Project bytecode version: ame as language level ~ 
Mond ie sode versi i 
MR r-module bytecode version: 
ie Terplsies Modus 
^ Ws MongoProject 
Intentions 
Plugins o 
~ Build, Execution, Deployment 
~ Compiler 


Compilation options 


For current project 


DI 


paths for cross-platform configurations) 


[9k ]| ees | 
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10.5 模块 开发 一 一 数据 分 析 


针对 通过 怜 虫 程序 采集 的 数据 内 容 , 本 节 采 用 Spark 计算 框架 对 采集 的 数据 进行 统计 
分 析 ,将 分 析出 的 数据 存 人 MongoDB 数据 库 中 。 接 下 来 ,我 们 将 分 步骤 讲解 如 何 进 行 数据 
分 析 统 计 。 


1. 创建 工具 类 


在 项 目 SparkDemo 的 cn.itcast.spark 包 下 创建 工具 类 文件 SparkToMongoUtil.java. 
用 于 获取 spark 连接 mongodb 数据 库 对 象 ,具体 代码 如 文件 10-10 所 示 。 
文件 10-10 SparkToMongoUtil.java 


上 述 代码 中 ,第 10 一 25 行 代码 创建 SparkSession 对 象 spark 并 传递 相关 参数 ,其 中 包 
括 主机 名 ,任务 名 称 、spark 读 取 MongoDB 数据 的 地 址 以 及 spark 写 人 MongoDB 数据 的 地 
址 ,其 中 第 11 行 代码 指定 spark 运行 模式 为 本 地 运行 ,在 本 地 调试 程序 的 时 候 使 用 ,由 于 后 
续 需 要 提交 Spark 程序 到 集群 中 运行 , 因此 这 里 需要 注释 掉 ; 第 26 行 代码 使 用 
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SparkSession 对 象 的 SparkContext() 方 法 创建 Spark 连接 对 象 JavaSparkContext, 用 于 创 
建 Spark 连接 。 


2. 创建 数据 库 操作 类 


在 项 目 SparkDemo 的 cn.itcast.spark 包 下 创建 数据 库 操 作 类 文件 SparkMongoDao. 
java, 用 于 创建 MongoDB 数据 库 连 接 , 并 实现 Spark 操作 MongoDB 数据 库 的 相关 方法 , 具 
体 代码 如 文件 10-11 所 示 。 

文件 10-11 SparkMongoDao.java 


上 述 代码 中 ,第 7 一 12 行 代码 创建 连接 MongoDB 相关 参数 的 属性 ;第 13 一 16 行 代码 
创建 类 的 无 参 构造 方法 SparkMongoDao 用 于 创建 MongoDB 连接 ;第 17—21 行 代 码 创 建 
方法 readFromMongoDB() 用 于 读 取 MongoDB 数据 库 中 的 数据 ,存储 为 Spark 程序 可 以 处 
理 的 JavaMongoRDD 形式 ;第 22—24 行 代码 创建 方法 writeToMongoDB() 用 于 写 和 人 数据 
到 MongoDB 数据 库 中 ,该 方法 包含 参数 data, 用 于 指定 写 入 的 数据 内 容 ;第 25 一 27 行 代码 
创建 close() 方 法 ,用 于 关闭 Spark 连接 。 
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3. 实现 数据 分 析 


在 项 目 SparkDemo 的 cn.itcast.spark 包 下 创建 数据 分 析 类 文件 AvgPrice.java, 用 于 分 
析 北 京 市 各 个 区 的 二 手 房 平均 价格 ,具体 代码 如 文件 10-12 所 示 。 
文件 10-12 AvgPrice.java 


第 10 章 综合 案例 一 一 二 手 房 交 易 数 据 分 析 系 统 


上 述 代 码 详细 介绍 如 下 : 

第 10 一 12 行 代码 实例 化 Spark 连接 MongoDB 对 象 sparkMongoDao, 通过 调用 
sparkMongoDao 对 象 的 readFromMongoDB() 方 法 指定 并 获取 数据 库 集 合 中 的 数据 ,并 将 
数据 放 入 mongoRDD(JavaMongoRDD) 。 

58 13— 26 行 代码 通过 Spark 中 的 mapToPair 算 子 对 mongoRDD 进行 处 理 ,提取 
mongoRDD 中 每 条 房 源 信息 中 district( 房 源 所 在 区 ) 和 unit_price( 房 源 均 价 ( 元 /平方 米 )) 
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两 个 字段 数据 ,生成 新 的 键 值 对 类 型 RDD(JavaPairRDD) 并 命名 为 sparkRDD, 并 将 这 两 个 
字段 数据 作为 sparkRDD 的 键 和 值 。 

第 27 一 28 行 代码 ,通过 Spark 中 的 groupByKey 算 子 对 sparkRDD 进行 处 理 , 通 过 
sparkRDD 中 的 键 ( 房 源 所 在 区 ) 进 行 分 组 ,生成 新 的 键 值 对 类 型 RDD(JavaPairRDD) 并 命 
名 为 groupRDD。 

第 29 一 49 行 代码 通过 Spark 中 的 mapToPair 算 子 对 groupRDD 进行 处 理 ,对 相同 键 
的 值 进行 累加 处 理 并 统计 相同 键 中 值 的 个 数 ,便于 后 续 的 平均 值 计 算 ,生成 新 的 键 值 对 类 型 
RDD(JavaPairRDD) 并 命名 为 mapRDD, 

第 50 一 67 行 代 码 通 过 Spark 中 的 mapToPair 算 子 对 mapRDD 进行 处 理 , 计 算得 出 每 
个 地 区 的 二 手 房 均 价 ,生成 新 的 键 值 对 类 型 RDD(JavaPairRDD) 命 名 为 avgRDD。 

第 68 一 79 行 代码 通过 Spark 中 的 map 算 子 对 avgRDD 进行 处 理 , 将 拆 分 键 值 对 数据 
并 组 合成 json 形式 ,便于 后 续 通 过 Spark 将 分 析 结 果 存 储 到 MongoDB 数据 库 中 ,生成 新 的 
RDD(JavaRDD) 并 命名 为 resultRDD。 

第 80—81 行 代码 ,通过 调用 sparkMongoDao 对 象 的 writeToMongoDB 方法 将 分 析 结 
果 存 储 到 MongoDB 数据 库 中 。 

接 下 来 ,我 们 通过 一 张 图 来 详细 了 解 Spark 数据 分 析 程序 中 各 RDD 间 数 据 的 转换 过 
程 ,具体 如 图 10-37 所 示 。 


mongoRDD 


Document{{_id=5e95c97db3685103494ddcb6, title= 阜 成 门 
阜 外 北 四 巷 住 建部 宿舍 HA IRI, total price-678.0, 
unit_price=124862, area=54.3, house_type=1 室 1 厅 1P, resultRDD 
community- 章 外 北 四 蔡 北 楼 , district- 西 城区 , ...), ..) Pe A avg price- 


mapToPair 


avgRDD 
< 西城 区 ，127268.74> 


sparkRDD 
< 西城 区 ，124862> 


mapToPair 


groupByKey 


mapRDD 
<< 西 城区 ，5981631>，47> 


groupRDD 
< 西城 区 ， [124862, 157895, 187394, 266584, 110360, ...]» 


mapToPair 


图 10-37 RDD 转换 过 程 


4. 运行 数据 分 析 程 序 


(1) 本 地 模式 运行 。 

在 项 目 SparkDemo 的 cn.itcast.spark 包 下 右 击 文件 AvgPrice.java. 选择 Run. AvgPrice. 
main() 运 行 Spark 数据 分 析 程 序 ( 需 去 掉 代码 .Master(“local”) 的 注释 )。 待 程序 运行 完成 后 ， 
通过 Robo 3T 工具 查看 分 析 结 果 数 据 是 否 成 功 存 人 MongoDB 数据 库 中 ,如 图 10-38 所 示 。 


二 手 房 交易 数据 分 析 系 统 


& Robo3T-13 


CE IOLE 


Fle View Opons Window Help 


Iv IB New Connection (3) 
> E] System 
> B config 
Y B morgoproject 
v El coleaions 


> E house 
> [] Functions 
> [] users 


lors 


E emis @ 0 0 see 3L» [wm ]» [Bm ae 


v E mh Objectid( e95f175bBf09117814163c) (3 fields } 
cd objeaadrsesef7sbfafoo1178F4163c) 
xem 
5455942 
> E 四 ObjectidC 5e96f175bFBf091173141645) (3 fields } 
» £9 G) objedidf'sc36f175blafo9117ai4163d) (3 fields} 
» 9 (4) Objectid(’Se96f175bi#091173141641") (3 fields } 
> £9 © Objeciid( Se9óf175b/e(09 1178/41645) {3 fields} 
> E (6) Objectid( SeDSH175b/8(09 1173841640") (3 fielde } 
> E (D Objectid( Se35ft7Sb/efo9 117841643) (3 fields } 
> £P (9 objedtdf'se96f175bfefo91173f4163P) (3 field: ) 
» £P (9) CbjectidC Se95fT7SbéfO9 17841643) (3 fields } 
> £9 (19) Objectdrsc96f175bfBf0s117af415447 {3 fields ) 
> E (11) ObjectidSe36f1 75bIBK091178841647") (3 felds ) 
» E (12) Objectld(Se96f175bl0f05 117941649) (3 fields } 
> ER (13) Objectid Se06f1 7SbIBIOS 117344153") (3 Geld) 
> B (14) Objectid"5e36f175b18(0911731416477) (3 fields ) 
> i (15) ObjectldCSeD6f175bí8l00 117344112?) (3 fielde } 
> E (18) ObjecidCSe2ofI75bBKOS MI784183.. (3 fields} 
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从 图 10-38 中 可 以 看 出 ,数据 库 mongoproject 中 的 avgprice 集合 中 存放 了 分 析 结 果 数 
据 ,说 明 已 成 功 将 Spark 分 析 结 果 存 放 到 MognoDB 数据 库 中 。 

(2) 集群 模式 运行 。 

需要 将 SparkDemo 项 目 通过 Maven 封装 成 jar 包 , 具 体操 作 步 又 如 下 : 

(D 在 SparkDemo 项 目的 本 地 目录 中 , 按 住 Shift 键 在 空白 处 右 击 ,选择 “在 此 处 打开 
Powershell 窗口 ”选项 ,打开 CMD 命令 行 操作 工具 ,如 图 10-39 和 图 10-40 所 示 。 


1 日 加 =1 
主页 


< 了 “个 


s 快速 访问 
@ OneDrive 
ET 

Lemon (E) 


d ne 


SparkDemo - D x 
共享 ss ^e 
^| omes ITE) E Th Bor- memes 

v4 i$ 

日 Bereme 09 X» D Zi res |E 

EE 移动 到 复制 到 Me Eez F2 ge ^ Pamas 

X mu S xd ” basaa CU 

mt aR sa 打开 mm 
| « Work > IdeaProjects > SparkDemo Y | Hrk'SparkDemo" P 

^ 修改 日 其 类 型 大 小 
sre zav > 
target 排序 方式 (DO) ? 
口 pomami Eu) > 3 KB 
RKO 
BEHAD.. 
RRO 
RRRRSRO 
Ji SEU) Chez 
Bl Open Folder as IntelliJ IDEA Project 
在 此 处 打开 Powershell BEI) 
授予 访问 权限 (G) > 
raw » 
EHE) 


10-39 在 此 处 打开 Powershell 窗口 
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图 10-40 CMD 命令 行 操作 工具 


在 图 10-40 中 ,命令 行 工具 直接 进入 SparkDemo 项 目 所 在 目录 。 
@ 在 命令 行 工 具 中 输入 命令 mvn package, 封 装 SparkDemo Mi A X jar 包 , 具 体 如 
图 10-41 所 示 


图 10-41 封装 jar & 


从 图 10-41 中 可 以 看 出 ,出 现 BUILD SUCCESS 说 明 SparkDemo 项 目 成 功 封装 
W jar 包 , 并 且 在 “with assembly file; "一行 信息 中 可 以 看 到 jar 包 默 认 存放 的 目录 。 

© 将 jar 包 通过 SecureCRT 远程 连接 工具 (rz 命令 ) 上 传 到 Spark 集群 的 主 结 点 服务 
器 nosql01 中 ,存放 在 服务 器 的 “/opt/servers/mongodb_demo/shardcluster/spark-2. 3. 2- 
bin-hadoop2.7/bin” 目 录 下 ,具体 如 图 10-42 所 示 。 

从 图 10-42 中 可 以 看 出 ,在 服务 器 nosql01 的 目录 “/opt/servers/mongodb_ demo/ 
shardcluster/spark-2.3.2-bin-hadoop2.7/bin” 下 出 现 SparkDemo-1.0-SNAPSHOT.jar, 说 明 
成 功 将 项 目 SparkDemo 封装 后 的 jar 包 上 传 到 服务 器 nosql01 上 ,注意 此 步 操作 应 切换 到 
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192.168.121.134 - SecureCRT - n x 


UH Hd View Opis Tee soipt Tool Window rep 
IJ 3]; Enter host <Alt+R> 


134 x [e 1821681121.135 | 9 192.168.121.136 


user mongoénosqT0l bin]$ TT 

total 127168 

cDwarwer-X 1 user mongo user mongo beeline 

1 user mongo user mongo beeline. cmd 
user-mongo user mongo docker -image-tool. sh 
user mongo user mongo find-spark-home 
user-mongo user mongo find-spark-home. cmd 
user mongo user mongo load-spark-env. cmd 
user-mongo user-mongo load- spark- env. sh 
user mongo user mongo pyspar! 

user mongo user mongo pyspark2. cmd 

user mongo user mongo pyspark. ci 

user mongo user mongo run-example 

user mongo user mongo run-example. cmd 
user mongo user mongo spark-class 

user mongo user mongo 

user mongo user mongo 

user mongo user mongo 

user mongo user mongo 

user mongo user mongo 

user mongo user mongo 

user mongo user mongo 

user mongo user mongo spark-she112. cmd 
user mongo user mongo spark- c cmd 
user mongo user mongo spark- 

user-mongo user_mongo Spark-sq12. cmd 
user_mongo user_mongo spark-sq]. cmd 

user mongo user mongo spark-submit 

user mongo user mongo spar 

user-mongo user mongo spark-submit.cmd 
[user o mongoénosq101 bins E 


ssh2: AES-256-CTR. 31, 27 31Rows 87 Cols VT100 
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服务 器 nosql01 中 的 user_mongo 用 户 进 行 操作 。 
@ 启动 MongoDB 分 片 集群 (参照 本 书 第 5 章 , 使 用 user_mongo 用 户 ) 和 Spark 集群 
参照 本 章 第 10.2.3 节 ,使 用 user_mongo MHF). 
C 删除 MongoDB 分 片 集群 中 mongoproject 数据 库 下 的 avgprice 集合 (如 运行 过 
Spark 本 地 模式 )。 
© 在 Spark 的 bin 目录 下 通过 spark-submit 提交 Spark 数据 分 析 程 序 到 Spark 集群 中 
运行 ,具体 命令 如 下 : 


-/spark-submit V 
--master yarn V 


--deploy-mode client V 


-total-executor-cores 2 V 


-executor-memory 2G V 
--class cn.itcast.spark.AvgPrice V 
-/SparkDemo-1.0-SNAPSHOT.jar \ 


待 程序 运行 完成 后 ,通过 Robo 3T 工具 查看 分 析 结果 数据 是 否 成 功 存 人 MongoDB 数 
据 库 中 ,这 里 不 再 歼 述 


10.6 ”模块 开发 一 一 数据 展示 


将 MongoDB 数据 库 中 的 分 析 结果 数据 展示 在 Web 系统 中 ,实现 数据 的 可 视 化 展示 ， 
便于 非 技 术 人 员 的 决策 与 分 析 , 本 系统 采用 ECharts 来 辅助 实现 。 


376 


NoSQL 数据 库 技 术 与 应 用 


ECharts 是 一 款 商 业 级 数据 图 表 软 件 。 它 拥有 基于 JavaScript 的 数据 可 视 化 图 表 库 ， 
上 且 兼 容 大 部 分 浏览 器 ;底层 基于 Zrender( 轻 量 级 Canvas XE) ,包含 许多 组 件 , 例 如 坐标 系 、 
图 例 . 工 具 箱 等 ,并 在 此 基础 上 构建 出 折线 图 .柱状 图 . 散 点 图 、 饼 图 和 地 图 等 ,同时 支持 任意 
维度 的 堆积 和 多 图 表 混 合 展现 ,展示 效果 功能 强大 。 想 要 充分 学 习 ECharts 的 读者 可 以 浏 
览 官 方 网 站 http://echarts.baidu.com/。 使 用 Echarts 也 非常 简单 ,只 需 在 官网 下 载 相 应 版 
本 的 JavaScript 源 代码 ,并 通过 所 选 实例 的 教程 编写 接口 参数 即 可 。 


10.6.1 实现 数据 展示 功能 


针对 数据 展示 功能 ,本 节 采 用 Servlet 十 JSP 十 Echarts 实现 动态 数据 可 视 化 。 接 下 来 ， 
我 们 将 分 步骤 讲解 如 何 实现 数据 展示 。 


1. 创建 实体 类 


在 项 目 MongoProject 的 cn.itcast.domain 包 下 创建 实体 类 文件 AvgPriceModel.java. 
用 于 封装 从 MongoDB 数据 库 读 取 的 数据 ,具体 代码 如 文件 10-13 所 示 。 
文件 10-13 AvgPriceModel.java 


1 public class AvgPriceModel { 

2 private String district; 

3 private double avg price; 

4 public String getDistrict() ( 

5 return district; 

6 } 

7 public double getAvg price() ( 

8 return avg price; 

9 } 

10 public void setDistrict(String district) { 
1i this.district -district; 

12 ) 

13 public void setAvg price(double avg price) ( 
14 this.avg price -avg price; 

15 ) 

16 public AvgPriceModel (String district,double avg price)( 
17 this.district -district; 

18 this.avg price -avg price; 

19 ) 

20 GOverride 

21 public String toString() { 

eum return "AvgPriceModel [district-" «district +", avg price-" tavg price *"]"; 
BE } 

24 } 


上 述 代码 中 ,第 2,3 行 代码 定义 需要 读 取 数 据 库 中 分 析 结 果 数 据 的 相关 属性 ;第 4 一 15 
行 代码 定义 属性 的 get()/Vset() 方 法 ;第 16 一 19 行 代码 定义 类 的 有 参 构 造 方法 ;第 21 一 23 
行 代 码 重 写 toString() 方 法 格式 化 输出 。 
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2. 修改 数据 库 操作 类 


修改 项 目 MongoProject 中 cn.itcast.dao 包 下 的 数据 库 操作 类 MongoDao.java 文件 ,在 
该 文件 中 添加 查询 数据 库 中 集合 数据 的 方法 find ATO ,具体 代码 如 下 : 


上 述 代 码 中 ,第 2,3 行 代码 获取 集合 中 的 数据 ,并 过 滤 每 一 条 数据 中 district 字段 为 空 
的 数据 。 


3. 创建 Servlet 类 


在 项 目 MongoProject 的 cn.itcast.controller 包 下 创建 Servlet 类 文件 AvgPriceControler. 
java, 用 于 处 理 数据 库 中 读 取 的 数据 ,并 将 处 理 后 的 数据 传输 到 JSP 中 ,具体 代码 如 文件 10-14 
所 示 。 

文件 10-14 AvgPriceControler.java 
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上 述 代 码 中 ,第 18 一 30 行 doPost() 方 法 中 实现 数据 的 处 理 即 传输 操作 , 即 前 端 发 送 过 
来 的 请 求 形式 为 post 请 求 ; 第 26 一 27 行 代码 通过 数据 库 操作 类 MongoDao 中 的 findAll() 
获取 指定 数据 库 (mongoproject) 中 集合 (avgprice) 的 数据 内 容 ;第 28 一 35 行 代码 遍历 获取 
的 数据 ,并 将 数据 放 和 List 集合 中 ;第 36 行 代码 将 List 中 的 数据 转 为 Json 形式 ,并 于 前 端 
解析 ;第 38 行 代码 设置 请 求 以 及 响应 的 内 容 类 型 以 及 编码 方式 ;第 39 行 代码 将 数据 传输 到 
前 端 JSP。 


4. 创建 JSP 文件 


在 项 目 MongoProject 的 webapp 下 创建 JSP 文件 avgprice.jsp, 用 于 实现 数据 的 可 视 化 
展示 功能 ,具体 代码 如 文件 10-15 Bron 。 
文件 10-15 文件 avgprice.jsp 
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上 述 代码 中 ,通过 jquery 的 ajax 异步 post 请 求 获取 后 端 servlet 中 传输 过 来 的 数据 ,将 
数据 加 载 到 echarts 柱状 图 插件 中 ,并 通过 div 标签 加 载 echarts 插件 实现 数据 的 可 视 化 
展示 。 


5. 配置 web.xml 文件 


打开 项 El MongoProject 中 webapp > WEB-INF 目录 下 的 文件 web. xml 来 配置 
servlet, YE <web-app> — / web-app bi 4& F VS JI Un F P3 4 : 


上 述 代码 用 于 配置 在 ajax 中 通过 指定 url 请 求 的 后 端 指定 的 servlet 类 ,以 实现 前 后 端 
数据 的 交互 。 


6. 配置 Tomcat 
在 运行 程序 前 还 需要 为 项 目 MongoProject 配置 Tomcat 服务 ,具体 步骤 如 下 。 


$103 综 


合 案例 


(D Æ IDEA 界面 选择 选项 Edit Configurations 进行 配置 ,如 图 10-43 所 示 。 
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(2) f£ Run/Debug Configurations 界面 单 击 十 按钮 进行 添加 ,依次 选择 Tomcat Server 


Ed Hie Edit View Navigate Code Analyze Refactor Build Run Tools VCS Window Help ^^ MongoProject - -webxml 
Ws MongoProject | Bs src | MM main | BE webapp ` B3 WEB-INF ) gf webxml 
[S Projet ~ Q x € —; webxml: (& SparkToMongoUtiljava. 

Y B controller 1 <!DOCTYPE web-app PUBLIC 
@ AvgPriceControler 2 7-/[Sun Microsystems, Inc.//DTD Web Applic 

> 加 crawer 3 "http://java.sun.com/dtd/web-app 2 3.dtd" 

v 四 dao 4 
4$ MongoDao 5 <web-app> 
@ SparkMongoDao 6 <servlet> 

v Ba domain 7 «servlet-name»AvgPriceServlet«/servlet-name» 
@ AvgPriceModel 8 «servlet-class»cn.itcast.controller.AvgPriceControler«/servlet-class» 

v 四 spark 9 «/servlet» 
4 AvgPrice. 1e €servlet-mapping» 

v Bautis n Eservlet-namejAvgPriceServletk/servlet-name? 
@ DBUtils i2 ur1-pattern»/AvgPriceServletc/url-pattern» 
@ PropertyUtil 13 «/servlet-mapping» 
@ SparkToMongoUt] — 14 </web-app> 

> MMETA-INF 15 
~ resources 

ililog4i.properties 

ilimongodb.properties 

ff spark.properties 

v Ba webapp 
v mjs web-app > servlet-mapping > servletname 
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一 Local ,添加 本 地 Tomcat 服务 ,具体 如 图 10-44 所 示 。 


Bl Run/Debug Configurations. 


E Bu^--tW 


Add New Configuration. 


pgs 

I JAR Application 

闻 JavaScript Debug 

e Jest 

4 JUnit 

K Kotin 

KE Kotiin script 

M Maven 

© Mocha 

Ê Nodejs 

篇 Nodeunit 

O npm 

@ nwjs 

È Play 2 App 

@ Protractor 

® Protractor (Kotlin) 
React Native 

加 Remote. 

@ sbt Task 

"2 Scala REPL 

4 ScalaTest 

E Shell Script 

|t Smart Tomcat 

tù Specs2 

Ë Spyjs 

& Spyjs for Nodejs 

ME TestNG. 
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| Configuration Code Coverage Logs 
Main class: cnitcast.spark AvgPrice 
VM options: 
Program arguments: 
Working directory: DAWork\ideaProjects\MongoProject 
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C Redirect input from: 

Use classpath of module: |g MongoProjet 
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B xs 


并 Rer 
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Ca Eee 


x 


C Share through VCS ®© [ Allow parallel run 


若 图 10-44 所 示 的 界面 中 Add New Configuration 列表 中 没有 找到 Tomcat Server 一 
项 ,可 通过 在 IDEA 主 界面 依次 打开 File— Settings Plugins.18 R tomcat 插件 Tomcat 


10-44 添加 Tomcat 服务 
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(mme sA 


uonepyea ureg ay 
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and TomEE, 勾 选 安装 插件 并 重启 IDEA 即 可 ,具体 如 图 10-45 所 示 。 


Bl Settings x 
| Plugins Marketplace — Instaled  — & 
> Appearance & Behavior. WE ER 
Num SEET ( a- pm cat 
an 


gu eem a 
3.6.0 zengkid TomEE 


> Version Control a 


> Build, Execution, Deployment E EE Integratic 
? Languages & Frameworks — bundled 
» Tools bundled 
Tomcat Server. 
Experimental L] Allows configuring and using Tomcat and TomEE 


application servers directly from IntelliJ IDEA, for 
deploying and running/debugging web and 
enterprise applications. 


e [9 ]| eme | 


10-45 Plugins 


在 图 10-45 中 ,如 果 已 经 安装 过 tomcat 插件 则 显示 的 是 Disable, 如 未 安装 该 插件 则 单 
击 Installed 进行 安装 。 

如 安装 Tomcat 插件 后 ,依然 无 法 显示 Tomcat Server 一 项 ,可 通过 在 IDEA 主 界面 依 
次 打开 File-- Settings Build. Execution. Deployment- Application Servers ,手动 配置 本 地 
Tomcat, 具 体 如 图 10-46 所 示 。 


Bl Senos 
a- Build, Execution, Deployment > Application Servers. 
> Appearance & Behavior + QE “4 
s Add sppkcstion server 
Mum M CloudBees Server 
=d FE @ 选 择 本 地 Tomcat 目 录 
et Glassfish Server 
et | [an Goog App Engine Dev Server Lube ad 
ET 
hd Execution, Deployment. (C JBoss Server Tomcat Home [DATomca 3030] = 
? Build Tools = | [Bt len sener Tomeat 
yum m | |& rna Compatitie Appicaton Server eese 
Rr Tomeat base directory. |DATomeat 90.30 = 
Remote Jar Repositories 
» Deployment 
E 9x ][ cmi 
le 回 选择 “Tomcat Server" 
Coverage a | 
> Docker 
Grodle-Andrcid Compiler 
Instant Run 
Recuired Plugins 
> Languages & Frameworks 
> Tools 
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(3) Tomcat 服务 添加 完成 后 ,在 Server 选项 卡 中 对 Tomcat 服务 进行 相关 配置 ,具体 


如 图 10-47 所 示 。 


Bl. Run/Debug Configurations 
一 了 av 


[> E Application 
(v Tomcat Server 


x 


Name: va ] DD Share through VCS © 


Server Deployment Logs Code Coverage — Startup/Connecton 


e e | 

Open browser 

EZ After launch [€ Default [A] C with JavaScript debugger 

URL: [| http;//localhost:6080/avgpricejsp = 
MM optons z] 
On "Update action: | Restart server ~| [A Show dialog 
ase: [18 后 -| 
Tomcat Server Settings 


C Deploy applications configured in Tomcat instance 
[ Preserve sessions across restarts and redeploys 


» Before launch: Build, Activate tool window. 


L-9x ] [omes | [ Avo ] 


在 图 10-47 中 ,在 Name 栏 中 配置 服务 器 名 称 ;在 Application server 栏 中 配置 本 地 
"Tomcat ,本 书 配置 的 Tomcat 版 本 为 9.0.30 ,在 本 书 的 配套 资源 中 会 提供 此 版 本 的 Tomcat. 安装 
包 供 读者 使 用 。 有 关 Tomcat 在 Windows 环境 下 的 安装 ,读者 可 通过 查阅 相关 资料 进行 操作 。 


图 10-47 配置 Tomcat 服务 


在 URL 栏 中 配置 Tomcat 启动 时 默认 打开 的 地 址 ;在 JRE 中 配置 本 地 安装 的 jdk。 
(4) 将 项 目 添加 到 Tomcat. 中 ,需要 在 图 10-48 所 示 的 Deployment 选项 卡 中 进行 相关 配置 。 


Bl. Rur/Debug Configurations 


> = Application 
v 3 Tomcat Server 
Atest 


» f Templates 


+ 一面 上 < 本， 


X 
C Share through VCs © 


| CodeCoverage 。 Startup/Connection 


Deploy at the server startup 


Name: test 


Nothing to deplo 


[Cox ]| Cancel 
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在 图 10-48 中 , 单 击 十 按钮 ,选择 Artifact ,弹出 添加 Select Artifacts to Deploy 界面 , 具 
体 如 图 10-49 所 示 。 


Bl Select Artifacts to Deploy 


Selected artifacts will be deployed at server startup 
< MongoProjectwar 


C ]| ees ] 
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在 图 10-49 中 选择 MongoProject: war exploded 后 , 单 击 OK 按钮 完成 添加 ,添加 完成 
后 的 效果 如 图 10-50 所 示 。 


Bl Run/Debug Configurations. x 
C Share through VCS © 


*o-o B Mos 7 oq l? Name (test 
> (9 Application 
" 3 
v Toni Server Server Deployment Logs Code Coverage 。 Startup/Connection 
HORE Deploy at the server startup 


Application contee [|__| 
0 [ox ]| ces | Ceasey 
图 10-50 ”完成 项 目 添加 


在 图 10-50 中 删除 Application context 栏 中 默认 生成 的 内 容 , 如 不 删除 会 造成 在 
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Server 中 配置 的 默认 地 址 无 法 直接 访问 ,操作 完成 后 单 击 Apply 按钮 完成 Tomcat 的 配置 。 


10.6.2 ”系统 功能 模块 展示 
在 IDEA 中 通过 Tomcat 启动 项 目 , 单 击 图 10-51 中 标注 的 按钮 启动 项 目 。 


EJ] Hie Edit View Navigate Code Analyze Refactor Build Run Iools VCS Window Help ^ Mongo?roject [..MongoProject] - -webxml 一 口 se 
Is MongoProject > Bs src | MM main | Bi webapp BM WEB-INF | X webxml < masna mma 
E Project ~ Q 三 内 一 | 最 webxml 。 @SporkToMongoUtiljava ^ @ AvgPriccModeljava = gh sporkpropMjes = @ AvgPriceje -=e m 
~ Bg MongoProject DAWorkldesProjecdisiMon; 1 <IDOCTYPE web-app PUBLIC xz 
ystems, Inc.//DTD Web Application 2.3//EN" 启动 按钮 


vlerc/servlet-class» 


1e <servlet-mapping> 
&servlet-name»AvgPriceServletc/servlet-name» 
&url-patterm/AvgPriceServletc/url-pattern» 

15 </servlet-mapping> 

14 «/web-app» 


uma 134 sA vs. seqay use 


web-app ? servlet > servlet-name 


启动 项 目 
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Tomcat 启动 完成 后 ,浏览 器 会 自动 弹出 在 Server 中 设置 的 默认 地 址 ,也 可 以 通过 手动 
访问 http://localhost: 8080/avgprice.jsp 浏览 二 手 房 交 易 数据 分 析 系 统 的 可 视 化 展示 内 
容 , 如 图 10-52 所 示 。 


C s Q  localhost8080/avgpricejsp 
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10.7 ”本章 小 结 

本 章 主要 介绍 了 如 何 利 用 Spark, MongoDB 以 及 WebMagic 等 技术 开发 二 手 房 交易 数 
据 分 析 系 统 。 通 过 本 章 的 学 习 ,读者 能 够 了 解 MongoDB 在 大 数据 及 Java Web 方面 的 实际 
应 用 ,并 能 了 解 候 虫 程 序 的 开发 与 使 用 。 本 章 的 重点 是 在 掌握 系统 结构 和 业务 流程 的 前 提 
下 ,读者 自己 动手 开发 系统 , 当 遇 到 问题 时 ,可 以 独立 解决 问题 。 
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